Grok 4.3: Giảm Chi Phí 40-60%, Cải Thiện Điểm Số và Pareto Frontier Mới

⚡ Tóm tắt nhanh

xAI ra mắt Grok 4.3 với điểm số AT Intelligence Index đạt 53, giá input $1.25/1M tokens và output $2.50/1M tokens — rẻ hơn 4–12 lần so với GPT-5.5 ($5/$30) và Claude Opus 4.7 ($5/$25). Model này ngồi trên Pareto frontier intelligence vs cost, vượt Claude Sonnet 4.6, Gemini 3.1 Pro, Muse Spark và Kimi K2.5, nhưng vẫn kém GPT-5.5 (Index 60) ~276 Elo và Opus 4.7 (Index 57) ~150 Elo. Cộng đồng phản ứng tích cực về hiệu quả chi phí, nhưng một số đặt câu hỏi rằng các benchmark có thể chỉ tối ưu cho test.

Hôm 30/4/2026, xAI chính thức công bố Grok 4.3 — bản nâng cấp tiếp theo của model lớn nhất họ, với những cải thiện rõ rệt về cả intelligence và chi phí. Theo Artificial Analysis Intelligence Index, Grok 4.3 đạt 53 điểm, cao hơn 4 điểm so với Grok 4.20, và vượt lên trên cả Claude Sonnet 4.6 và Gemini 3.1 Pro tại thời điểm ra mắt.

1.1 So sánh trực tiếp: GPT-5.5, Claude Opus 4.7 và Grok 4.3 trên AT Index và giá

Để đặt Grok 4.3 vào bối cảnh, hãy so sánh trực tiếp với hai model frontier hiện tại — GPT-5.5 (OpenAI) và Claude Opus 4.7 (Anthropic) — trên thang điểm Artificial Analysis (AT) Intelligence Index, một chỉ số tổng hợp từ nhiều benchmark đánh giá reasoning, coding, và khả năng agentic.

Model	AT Index*	Input ($/1M)	Output ($/1M)	Context
Grok 4.3 (xAI)	53	$1.25	$2.50	1M
GPT-5.5 (OpenAI)	60	$5.00	$30.00	1.05M
Claude Opus 4.7 (Anthropic)	57	$5.00	$25.00	1M

*Artificial Analysis Intelligence Index: thang điểm tổng hợp từ các benchmark MMLU, GPQA, coding, agentic tasks — cao hơn = intelligence mạnh hơn.

Phân tích nhanh: GPT-5.5 dẫn đầu về pure intelligence (60 điểm), Opus 4.7 đứng thứ hai (57), Grok 4.3 là 53. Tuy nhiên về chi phí, Grok 4.3 vượt trội: input rẻ hơn 4 lần so với hai đối thủ ($1.25 vs $5.00), và output rẻ hơn 10–12 lần ($2.50 vs $25–30). Sự chênh lệch này lý giải tại sao Grok 4.3 có thể ngồi trên Pareto frontier — nó đánh đổi một phần intelligence (~7–11 điểm Index) để đạt lợi thế chi phí rất lớn, phù hợp cho các workflow có volume cao và ngân sách hạn chế.

1. Chi phí thấp hơn, điểm số cao hơn: Pareto frontier mới

Điểm đáng chú ý nhất là Grok 4.3 vừa tăng điểm vừa giảm giá. Theo tính toán của Artificial Analysis, chi phí để chạy toàn bộ AI Index benchmark cho Grok 4.3 là $395 — khoảng 20% thấp hơn so với Grok 4.20 0309 v2, cho dù model này sử dụng nhiều output token hơn (~44%). Lý do là xAI cắt giảm giá token đầu vào khoảng 37.5% và token đầu ra khoảng 58.3%. Điều này đưa Grok 4.3 trở thành một trong những model có chi phí thấp nhất ở mức intelligence tương ứng.

So sánh Grok 4.3 với các đối thủ trên chỉ số Intelligence và chi phí — Hình 1: Grok 4.3 đạt 53 điểm trên Artificial Analysis Intelligence Index, đặt mình giữa Pareto frontier giữa intelligence và chi phí chạy benchmark.

Chuỗi cải thiện này giúp Grok 4.3 "ngồi" vững trên Pareto frontier — nghĩa là khó có model nào vừa thông minh hơn vừa rẻ hơn cùng lúc. Điều này trở thành lợi thế cạnh tranh quan trọng với các nhà cung cấp API, nơi chi phí inference chiếm phần lớn operational expense.

2. Agentic tasks và instruction following tăng mạnh

Ngoài tổng hợp điểm số, Grok 4.3 ghi nhận cải thiện lớn ở các bài tập agentic thực tế. Cụ thể, trên GDPval-AA — benchmark đánh giá khả năng xử lý giá trị kinh tế và ra quyết định — Grok 4.3 đạt ELO 1500, tăng 321 điểm so với 1179 của Grok 4.20, vượt Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini (xhigh) và Kimi K2.5. Chỉ có GPT-5.5 (xhigh) vẫn dẫn đầu với ELO 1776, cách Grok 4.3 khoảng 276 Elo (xác suất thắng ~17% theo công thức Elo).

Trong lĩnh vực instruction following và customer support, Grok 4.3 đạt 98% trên τ²-Bench Telecom (+5 điểm), ngang với GLM-5.1, và giữ nguyên 81% trên IFBench — cho thấy độ ổn định trong các tác vụ có cấu trúc.

Một chi tiết thú vị: Grok 4.3 sử dụng ~44% nhiều output token hơn Grok 4.20 để chạy cùng benchmark, nhưng nhờ giá token giảm mạnh (58.3% output, 37.5% input) nên tổng chi phí vẫn giảm ~20%. Điều này cho thấy model có thể "nói nhiều hơn" nhưng vẫn tiết kiệm chi phí.

Biểu đồ token usage của Grok 4.3 so với Grok 4.20 — Hình 2: Grok 4.3 sử dụng ~44% nhiều output token hơn Grok 4.20, nhưng nhờ giá token giảm mạnh nên tổng chi phí chạy benchmark vẫn thấp hơn ~20%.

3. Trade-off: chính xác tăng, nhưng hallucination cũng tăng

Một vấn đề đáng lưu ý là Grok 4.3 ghi nhận +8 điểm trên AA-Omniscience Accuracy — tức là khả năng trả lời đúng các câu hỏi đa dạng, nhưng đồng thời cũng giảm 8 điểm trên AA-Omniscience Non-Hallucination Rate. Nói cách khác, model trở nên thông minh hơn nhưng cũng có xu hướng bịa thông tin nhiều hơn một chút. Trong khi Grok 4.20 vẫn dẫn đầu về khả năng không ảo giác, các đối thủ như MiMo-V2.5-Pro cũng thể hiện sự cân bằng tốt hơn về mặt này.

Trade-off này không bất ngờ: khi model mở rộng khả năng suy luận, việc kiểm soát hoàn toàn tính chính xác là thách thức. Đối với các ứng dụng yêu cầu độ tin cậy cao, đây là yếu tố cần cân nhắc.

Bảng so sánh benchmark chi tiết của Grok 4.3 — Hình 3: Tổng hợp điểm số trên các benchmark chuyên sâu — Grok 4.3 dẫn đầu τ²-Bench Telecom (98%) và IFBench (81%), đồng thời cải thiện mạnh trên GDPval-AA.

4. Phản ứng cộng đồng: khen ngợi hiệu quả, hoài nghi tính thực tế

Cộng đồng AI trên X phản ứng nhanh và khá phân hóa. Nhiều người khen về chiến lược định giá phá cựa của xAI:

Grok 4.3 improved cost efficiency by roughly 20% overall, driven by steep cuts to both input and output token prices. The model now sits on the Pareto frontier of intelligence versus cost, meaning it's hard to beat on both metrics simultaneously — key for API-heavy applications and developers deciding between providers.
— @WarScopeGlobal

@AlenaaBonya nhận xét sắc bén:

Efficiency is the new dominance. Cutting output costs by 58.3% while maintaining a seat on the Pareto frontier isn't just a technical update; it's a direct assault on the margins of competitors. In 2026, "smart" is cheap, but "efficiently smart" is the only way to scale. … Is it real intelligence if it isn't economically viable? I'll wait. 👇⚙️

Tuy nhiên, không thiếu những tiếng nói thận trọng. @thulani_kate đặt câu hỏi về tính khách quan của benchmark:

Cool headline, but Pareto frontier claims always deserve a closer look. Lower token prices are real gains—but a ~20% total cost drop suggests the workload mix still leans heavily on inputs or fixed overhead. Also, "intelligence vs cost" depends a lot on benchmark design—optimize for the test, and you can shift that frontier. Big question: does this translate to real-world tasks, or just better benchmark economics?

Một số người dùng khác như @thingsnoticed nhận định:

Grok 4.3 cutting output token prices 58% while staying on the Pareto frontier says something about xAI's strategy. I guess they're not trying to win on margin... they're pricing to own the workload, and they have a parent company that doesn't need inference to be profitable.

5. Điều gì còn thiếu, và Grok 4.3 thực sự "đáng đồng tiền"?

Mặc dù các con số ấn tượng, câu chuyện về Grok 4.3 vẫn còn vài điểm cần tự vấn:

Benchmark sang thực tế: GDPval-AA, τ²-Bench, IFBench đều là bài test có cấu trúc. Liệu model có giữ hiệu năng khi xử lý workflow đa bước, với context dài, thông tin động và user intent phức tạp không?
Trade-off hallucination: Việc non-hallucination rate giảm 8 điểm có thể ảnh hưởng đến độ tin cậy trong các tác vụ sáng tạo nội dung, phân tích pháp lý, hoặc báo cáo?
So sánh với local models: Một số ý kiến chỉ ra rằng local models chạy trên hardware sẵn có không tốn phí inference, liệu Grok 4.3 có đủ rẻ để thuyết phục người dùng chuyển đổi?
Token usage: Grok 4.3 dùng ~44% nhiều output token hơn Grok 4.20. Điều này có nghĩa là throughput thực tế sẽ chậm hơn, và hybrid cost (token count × giá) vẫn cần đánh giá từng use-case.

Dù vậy, việc đạt được cả hai mục tiêu — tăng intelligence và giảm chi phí — trong một release là cột mốc đáng chú ý. Trong thị trường AI đang nóng, nơi các model lớn thường "nặng" và đắt đỏ, Grok 4.3 chứng tỏ rằng xAI đang theo đuổi chiến lược "efficiently smart" thay vì "bigger is better".

🎯 Chốt một câu

Grok 4.3 không chỉ là bản nâng cấp điểm số — nó là minh chứng rằng AI có thể vừa thông minh hơn vừa rẻ hơn, và Pareto frontier mới này sẽ gây áp lực lớn lên các đối thủ trong cuộc đua giá và hiệu năng suốt năm 2026.

Source: bài đăng và thread từ @ArtificialAnlys trên X, kèm theo các biểu đồ và số liệu từ Artificial Analysis. Ảnh minh họa được trích từ tweet gốc.

Đọc tiếp OpenClaw Pivot: Dùng ChatGPT Plus Login Thay Thế Claude API Sau Khi Bị Anthropic Cấm

Xem tất cả bài viết

#Grok #xAI #ParetoFrontier #AIBenchmark #AI