⚡ Tóm tắt nhanh
Nói về AI agent thì ai cũng có thể kể triết lý: memory, skills, tools, long-running workflows. Nhưng chỉ khi nhìn tận screenshot agent đang làm việc, sự khác biệt mới lộ rõ. Trong loạt hình về Hermes Agent, cái đáng chú ý không phải là nó “trả lời thông minh”, mà là nó đọc task, tự chia việc, sửa code, chạy test, commit, rồi còn nhớ lại chính cách team từng sửa lỗi hạ tầng trong quá khứ.
Đây là chỗ nhiều người hay nhầm khi nói về agent. Họ tưởng bước nhảy vọt nằm ở việc agent nói nghe giống người hơn. Thực ra bước nhảy vọt nằm ở chỗ nó bắt đầu nối được ba thứ cùng lúc:
- ngữ cảnh,
- hành động,
- và trí nhớ công việc.
Hermes đang cố đi đúng hướng đó.
1. Case đầu tiên: review PR, sửa lỗi, chạy test, commit luôn
Screenshot đầu tiên cho thấy một use case rất thẳng và rất đời: giao cho Hermes một PR đang chờ xử lý trên GitHub và bảo nó review rồi fix mọi issue cần thiết.
Điểm đáng tiền ở đây là flow làm việc không dừng ở mức “đọc code rồi đề xuất vài ý”. Nó đi hẳn qua chuỗi thao tác mà một engineer thật sẽ làm:
- phân tích nhiệm vụ,
- so sánh diff bằng git,
- vá trực tiếp vào file cần sửa,
- chạy test để kiểm tra,
- và commit / push lại thay đổi.
Đây là khác biệt rất lớn giữa “AI code assistant” và “agent làm việc”. Một cái giúp bạn nghĩ nhanh hơn. Cái còn lại bắt đầu nhận trọn một đoạn pipeline kỹ thuật.
🧠 Điểm hay nhất của case này
Hermes không chỉ tạo ra câu trả lời. Nó xử lý một công việc có vòng đời rõ: xem diff, sửa đúng chỗ, xác minh bằng test, rồi chốt thay đổi. Đó là thứ khiến agent bắt đầu giống một đồng đội junior thật sự hơn là một autocomplete engine.
Còn một chi tiết rất đáng để ý nữa: sau khi hoàn thành, nó còn lưu lại một skill cho kiểu pattern review PR này. Tức là không chỉ hoàn thành task hiện tại, agent còn cố đúc nó thành quy trình tái sử dụng cho lần sau.
2. Case thứ hai: nhớ lại cách team từng sửa một lỗi Docker từ trước
Case này mới là thứ nhiều người sẽ thấy “ồ, cái này bắt đầu khác rồi đấy”.
Trong screenshot thứ hai, người dùng hỏi một câu rất tự nhiên kiểu:
“Hôm trước team mình sửa cái lỗi Docker networking đó như thế nào nhỉ?”
Hermes không đoán mò. Nó gọi công cụ tìm lại session cũ, quét lịch sử, rồi trả về một câu trả lời cực đúng kiểu teammate kỳ cựu:
- xảy ra vào lúc nào,
- nguyên nhân gốc là gì,
- đã chuyển từ cấu hình nào sang cấu hình nào,
- và file nào chứa thay đổi đó.
Đây là bước tiến rất đáng kể. Vì ở môi trường kỹ thuật thật, năng suất không chỉ đến từ việc viết code mới. Nó đến từ việc không phải mất 40 phút đào lại lịch sử Slack, Jira, commit log hay chat cũ để nhớ team từng sửa một thứ ra sao.
💡 Đây là chỗ “memory” bắt đầu có giá trị thật
Rất nhiều agent hiện nay nói về memory như một khái niệm mơ hồ. Nhưng khi memory giúp bạn truy hồi đúng ngữ cảnh kỹ thuật cũ và chỉ thẳng vào file cấu hình liên quan, nó không còn là feature marketing nữa. Nó trở thành năng suất thật.
3. Vì sao hai case này quan trọng hơn các demo bóng bẩy?
Vì chúng chạm đúng hai nỗi đau lớn nhất của dân làm việc với code:
- pain của execution — nhận task, sửa, test, commit,
- pain của recall — nhớ team từng xử lý thứ tương tự ra sao.
Phần lớn demo agent ngoài kia thường show những thứ trông hoành tráng nhưng ít chạm vào workflow thật. Ví dụ:
- browse web cực đẹp,
- vẽ chart hay,
- hoặc nói chuyện rất mượt.
Nhưng trong môi trường làm việc, thứ quyết định người ta có giữ agent lại dùng mỗi ngày hay không lại là mấy câu hỏi rất trần tục:
- nó có sửa được việc mình giao không?
- nó có biết xác minh lại bằng test không?
- nó có nhớ được mấy bài học cũ của team không?
- nó có giúp mình đỡ phải đào lại context không?
Chính vì vậy, các case “see in action” kiểu này có giá trị hơn nhiều so với mấy lời hứa chung chung về tương lai agent.
4. Hermes đang gợi ra một mô hình cộng sự kiểu mới
Nếu nhìn từ các screenshot này, Hermes không cố trở thành “AI biết hết mọi thứ”. Nó đang tiến gần hơn tới một vai trò thực tế hơn nhiều: một cộng sự kỹ thuật có trí nhớ, có tool use và có workflow discipline.
Mô hình đó có vài lớp:
- nhận việc bằng ngôn ngữ tự nhiên,
- dịch nó thành chuỗi thao tác kỹ thuật,
- xác minh kết quả,
- và tích lũy kinh nghiệm thành memory/skills.
Nói cách khác, Hermes đang cố đẩy agent từ chỗ “tool-calling assistant” sang chỗ “workflow-carrying teammate”.
⚠️ Nhưng cũng đừng thần thánh hóa
Càng làm được nhiều việc thật, agent càng đòi hỏi governance thật: quyền hạn, sandbox, memory hygiene, cost control và khả năng debug khi nó đi lệch. Một agent có thể patch code và truy hồi context cũng đồng nghĩa với việc bạn phải thiết kế ranh giới cho nó cẩn thận hơn chatbot bình thường rất nhiều.
5. Điều đáng xem tiếp theo là gì?
Nếu những case trong ảnh này là tín hiệu đúng, thì câu hỏi thú vị tiếp theo không phải là “Hermes có làm được demo đẹp không?”. Câu hỏi thú vị là:
- nó có giữ được chất lượng đó qua nhiều tuần không,
- memory của nó có bền và hữu ích thật không,
- skills có thật sự giúp giảm context cost về sau không,
- và khi đưa vào công việc thật, nó tiết kiệm được bao nhiêu thời gian so với chi phí inference + maintenance?
Vì cuối cùng, agent chỉ thực sự thắng khi nó không chỉ làm được việc — mà làm được việc theo cách kinh tế hơn, bền hơn và đỡ phiền hơn so với việc tự tay làm hoặc dùng chatbot thường.
6. Kết luận
Nhìn từ các screenshot “see in action”, Hermes đáng chú ý không phải vì nó có nhiều buzzword như memory, skills hay self-improving. Nó đáng chú ý vì những buzzword đó bắt đầu chạm được vào công việc thật:
- review PR,
- sửa bug,
- chạy test,
- và truy hồi đúng tri thức cũ khi cần.
Đó là lúc agent bắt đầu bớt giống một thứ để demo, và giống hơn một thứ có thể ngồi cạnh bạn trong workflow hằng ngày.
🎯 Chốt một câu
Điểm hay nhất của Hermes không phải là nó “biết nhiều”. Điểm hay nhất là nó đang tiến tới chỗ biết làm việc, biết nhớ lại cách từng làm việc, và lần sau làm đỡ cần bạn cầm tay hơn.
Source: screenshot user cung cấp về Hermes Agent in action