TL;DR
Kimi K2.6 từ Trung Quốc: rẻ hơn Claude Opus 4.7 gấp 7 lần ($0.80/$3.60 vs $5/$25), benchmark ngang bằng SWE-Bench và Terminal-Bench, vượt trội ở tác vụ agent dài hạn. Mở nguồn, tự host được, và có 5 lệnh ẩn giúp tiết kiệm giờ làm việc.
Kirill vừa đăng một hướng dẫn toàn diện về Kimi K2.6 — model mã hóa đến từ Trung Quốc đang âm thầm thay đổi cách lập trình viên nghĩ về chi phí và hiệu suất. Điểm then chốt: rẻ hơn 7 lần so với Claude Opus 4.7, nhưng benchmark ngang bằng hoặc vượt trội trong nhiều tác vụ thực tế.
💰 So Sánh Chi Phí: 7 Lần Rẻ Hơn
- Claude Opus 4.7: $5.00 input / $25.00 output (triệu token)
- Kimi K2.6: $0.80 input / $3.60 output (triệu token)
Ở quy mô 1 triệu token output mỗi ngày — con số hợp lý cho agent mã hóa hoạt động:
- Claude Opus 4.7: $750/tháng
- Kimi K2.6: $108/tháng
Cùng chất lượng đầu ra, cùng tác vụ. 7 lần chênh lệch. Với team chạy nhiều agent song song, con số này tích lũy nhanh chóng.
📊 Benchmark: Không Chỉ "Đủ Tốt Với Giá Rẻ"
- SWE-Bench: Ngang bằng Opus 4.7
- Terminal-Bench: Ngang bằng Opus 4.7
- Tác vụ agent dài hạn: Vượt Opus 4.7 trong workflow nhiều giờ liên tục
Điểm khác biệt thực sự không phải benchmark ngắn hạn — mà là khả năng duy trì trong session dài. K2.6 được huấn luyện đặc biệt cho tác vụ dài hạn: giữ ngữ cảnh xuyên nhiều file, đưa ra quyết định kiến trúc giữa quá trình thực thi, phục hồi lỗi không cần con người.
🔧 5 Lệnh Ẩn Trong Kimi Code
1. @ — Bản Đồ Chiến Trường Trước Khi Đánh
Trước khi viết dòng code nào, bắt Kimi lập bản đồ toàn bộ codebase. Kimi đọc file thực, truy vết import, và xây dựng ngữ cảnh động. Tiết kiệm 30-40 phút khi refactor 50 file.
2. /explain — Hiểu Legacy Trong Phút, Không Phải Ngày
Đổ vào monolith 5 năm tuổi? Đừng đọc — hỏi. /explain tạo báo cáo kiến trúc với truy vết phụ thuộc, điểm nóng phức tạp, và sơ đồ luồng dữ liệu. Senior engineer mất 2-3 ngày mapping legacy trước khi đụng code; /explain thu gọn thành 10 phút.
3. .kimi/rules — Lập Trình Agent, Không Lặp Lại
Mệt mỏi vì phải nói "dùng strict mode" và "đừng đụng /legacy" mỗi session? Nướng vào DNA dự án. File .kimi/rules tạo hướng dẫn cấp dự án, Kimi tự động load mỗi session bắt đầu. Chuẩn hóa đầu ra xuyên team.
4. Checkpoint Prompting — Bảo Hiểm Cho Session 6 Giờ
K2.6 có điểm mạnh là endurance. Nhưng endurance không có mốc kiểm tra là tai nạn chờ xảy ra. Buộc Kimi xuất báo cáo trạng thái có cấu trúc sau mỗi vòng lặp. Nếu terminal crash ở giờ thứ 5, bạn mất mô hình tâm trí, không chỉ output. Checkpoints cho phép --resume từ bất kỳ điểm nào.
5. /test — Sinh Coverage, Không Chỉ Code
Viết hàm chỉ là nửa trận chiến. Chứng minh nó hoạt động là nửa còn lại. /test phân tích triển khai, nhận diện edge case bạn bỏ sót, mock phụ thuộc, và sinh khung thử nghiệm. 80% coverage trong 2 phút, bao gồm edge case xấu xí (null, overflow, concurrent access) con người hay quên.
🏆 Case Study Thực Tế
Case 1: Tối Ưu Suy Luận Zig Trên Mac
- Tác vụ: Triển khai Qwen3.5-0.8B cục bộ trên Mac, tối ưu suy luận bằng Zig.
- Kết quả: 4.000+ tool calls, 12+ giờ thực thi liên tục, 14 vòng lặp tối ưu.
- Hiệu suất: 15 tok/s → 193 tok/s (nhanh hơn 20% so với LM Studio).
- Không có can thiệp con người.
Case 2: Cải Tạo Engine Ghép Lệnh Tài Chính
- Tác vụ: Tối ưu exchange-core — engine ghép lệnh tài chính mã nguồn mở 8 năm tuổi.
- Kết quả: 13 giờ liên tục, 12 chiến lược tối ưu, 1.000+ tool calls, 4.000+ dòng code thay đổi.
- Hiệu suất: Thông lượng trung bình +185%, đỉnh +133%.
Engine đã vận hành gần giới hạn hiệu suất. K2.6 tìm thấy khoảng trống mà người bảo trì bỏ lỡ nhiều năm.
💬 Phản Ứng Cộng Đồng
Phản hồi của @ItaloArmenti đặt ra câu hỏi quan trọng: benchmark không phải luôn dịch sang trải nghiệm thực tế. Tốc độ và cảm giác "trơn tru" khi dùng cũng quan trọng — và đây là điểm các model mới, dù mạnh về benchmark, thường còn thiếu.
⚠️ Chỗ Cần Tỉnh Táo
- Tốc độ thực tế: Một số người dùng báo cáo K2.6 chậm hơn Claude Sonnet trong trải nghiệm hàng ngày.
- Benchmark ≠ Production: SWE-Bench là môi trường kiểm soát. Codebase thực tế với dependencies lộn xộn, legacy, và quy ước team riêng là chuyện khác.
- Session dài: K2.6 tự hào về endurance, nhưng nhiều lập trình viên vẫn thấy agent "drift" (lạc đề) sau 2+ giờ nếu không dùng checkpoint prompting đúng cách.
🎯 Chốt Một Câu
Câu chuyện AI mã hóa từng đơn giản: Claude là nhất, trả giá nào cũng được. K2.6 phá vỡ câu chuyện đó. Mở nguồn. Rẻ hơn 7 lần. Benchmark ngang bằng Opus 4.7. Đã được chứng minh trong sản xuất bởi Vercel, Fireworks, Augment Code. Câu hỏi không còn là "K2.6 có đủ tốt không?" Mà là: "Tại sao bạn vẫn trả gấp 7 lần?"