Matthew Berman: DeepSeek V4 Là Mối Đe Doạ Thật Sự Với Labs Mỹ

TL;DR

Matthew Berman vừa đăng một thread khá thẳng về DeepSeek V4: đây không chỉ là một model open-weight mạnh và rẻ, mà là mối đe doạ thật sự với economics của OpenAI, Anthropic và rộng hơn là chiến lược AI của Mỹ. Điểm đáng bàn không chỉ là benchmark, mà là khi một model “đủ tốt” ở mức giá thấp hơn rất nhiều, bài toán chọn model của doanh nghiệp bắt đầu đổi chiều. Và từ đó, câu chuyện leo rất nhanh từ pricing sang geopolitics, export controls và quyền sở hữu tầng model.

Thread này không nói “DeepSeek V4 mạnh”, mà nói “DeepSeek V4 nguy hiểm”

Nếu chỉ đọc surface level, thread của Matthew Berman trông giống một bài khen DeepSeek V4: open source, open weights, frontier-level, giá rẻ hơn rất nhiều so với Opus 4.7 hay GPT-5.5. Nhưng thesis chính không nằm ở đó. Luận điểm thật của anh ta là: DeepSeek V4 không cần phải dẫn đầu tuyệt đối để trở thành vấn đề lớn.

Nó chỉ cần làm một việc: đủ tốt cho phần lớn use case doanh nghiệp, nhưng rẻ hơn quá nhiều. Khi đó, frontier labs Mỹ không chỉ bị thách thức ở benchmark. Họ bị đe doạ ở economics của cả thị trường AI ứng dụng.

1. Good enough wins

Doanh nghiệp thường không cần model mạnh nhất, chỉ cần model đủ tốt và có economics đẹp.

2. Open weights changes the math

Tự host, fine-tune, kiểm soát stack khiến DeepSeek hấp dẫn hơn API closed đắt đỏ.

3. Economic threat becomes geopolitical

Nếu tầng model của doanh nghiệp Mỹ chạy trên model Trung Quốc, câu chuyện không còn là pricing nữa.

1) Vì sao Matthew cho rằng DeepSeek V4 là “serious threat”?

Thread mở khá mạnh: Berman gọi đây là “bigger deal than R1”. Lập luận của anh ta dựa trên mấy mảnh ghép quen thuộc nhưng ghép lại rất hiệu quả:

DeepSeek V4 Pro là MoE 1.6T total / 49B active với 1M context.
V4 Flash là bản workhorse 284B total / 13B active.
Cả hai đều được nói là trained trên khoảng 33T tokens.
Trên các benchmark như MMLU Pro, GPQA Diamond, SWE-bench Verified, nó chỉ hơi thua Opus 4.7 và GPT-5.5 một chút.

Điểm Matthew muốn nhấn không phải “DeepSeek đã vượt Mỹ”. Ngược lại, chính câu chốt của anh ta nói rõ: DeepSeek chưa catch up hoàn toàn, nhưng đã đủ tốt để được nhiều công ty chấp nhận.

2) “Most use cases don’t require frontier intelligence” mới là cú đánh lớn nhất

Đây là đoạn đáng chú ý nhất của thread. Matthew nói thẳng: đa số công ty không làm frontier science, không giải các bài coding khó nhất thế giới, không cần model tuyệt đối mạnh nhất. Họ chỉ đang vận hành doanh nghiệp.

Vì thế, bài toán chọn model của CEO không phải là “model nào mạnh nhất trên benchmark”, mà là:

có đủ tốt để làm việc cần làm không?
có rẻ hơn đáng kể không?
có thể host/fine-tune/kiểm soát được không?

Nếu câu trả lời là có, thì khoảng cách vài điểm benchmark trở nên ít quan trọng hơn hẳn. Đây là logic mà Berman cho rằng đang làm các closed labs Mỹ đau nhất: premium intelligence không tự động bảo vệ được premium pricing.

💡 Chỗ thread này đúng nhất

Khi model layer bắt đầu đủ tốt trên phần lớn workload doanh nghiệp, quyết định mua không còn là bài toán “trí tuệ tối đa”, mà là ROI trên task thật. Và ở đó, open weights + giá rẻ có thể giết premium API nhanh hơn benchmark leaderboard báo trước.

3) Từ pricing, thread nhảy thẳng sang geopolitical risk

Sau khi dựng xong bài toán economics, Matthew đẩy luận điểm sang một tầng nhạy cảm hơn: nếu doanh nghiệp Mỹ xây chiến lược AI trên mô hình open source từ Trung Quốc, đó không chỉ là quyết định kỹ thuật hay tài chính. Theo anh ta, nó còn là rủi ro địa chính trị và an ninh.

Đây là phần gây tranh cãi nhất trong thread, vì nó dựa trên một giả định lớn: dù model là open weights, việc phụ thuộc vào hệ sinh thái mô hình Trung Quốc vẫn tạo ra rủi ro cấu trúc cho tầng AI của Mỹ.

Ngay trong replies cũng có hai phe rất rõ:

Phe đồng tình: cho rằng trust, politics, compliance và data exposure là hidden cost đủ lớn để enterprise lớn không dám lao vào hoàn toàn.
Phe phản bác: nếu đã là open weights và có thể self-host, thì lập luận “bị cắt off” yếu đi đáng kể; vấn đề thật nằm ở competitiveness của Mỹ chứ không phải “đồ Trung Quốc thì nguy hiểm sẵn”.

4) Export controls: thread này đưa ra một góc nhìn khá thú vị

Matthew không nói export controls thất bại hoàn toàn. Anh ta nói kiểu lửng lơ nhưng đáng suy nghĩ: kind of yes, kind of no.

Yes, vì DeepSeek rõ ràng compute-constrained. Chính paper của họ cũng thừa nhận capacity cho Pro service còn hạn chế trước khi supernodes scale thêm vào nửa cuối năm.

But also no, vì sự thiếu compute đó lại ép họ tối ưu mạnh hơn ở thuật toán. Tức là hạn chế phần cứng không chặn được tiến bộ; đôi khi nó còn đẩy đổi mới thuật toán diễn ra nhanh hơn.

Đây là nuance hay nhất của cả thread. Nó không sa vào kiểu “cấm là xong” hay “cấm vô dụng hoàn toàn”. Nó chỉ ra một hiệu ứng phụ khá thực tế: pressure từ phần cứng có thể biến thành algorithmic unlock.

5) Distillation hacking: Matthew phản biện lại narrative đang phổ biến

Một nhánh nữa trong thread là câu chuyện “industrial-scale distillation” mà Anthropic và sau đó là phía chính phủ Mỹ đã nhắc đến. Matthew không phủ nhận rủi ro này, nhưng anh ta nghi ngờ việc dùng nó để giải thích toàn bộ chất lượng của DeepSeek.

Lập luận của anh ta khá cụ thể: nếu nhìn ngay vào báo cáo của Anthropic, số exchange gắn với DeepSeek chỉ khoảng 150,000, trong khi Moonshot và MiniMax cao hơn rất nhiều. Theo Matthew, mức đó không khớp với việc dùng distillation như lời giải thích đủ cho chất lượng V4.

Đây là cách anh ta bảo vệ một thesis khác: DeepSeek không chỉ “copy cho rẻ”, mà thực sự có innovation riêng ở training và architecture. Tức là nếu Mỹ chỉ kể câu chuyện “bị ăn cắp”, họ có thể bỏ lỡ vấn đề khó hơn: đối thủ cũng đang tự tiến bộ thật.

⚠️ Điểm nên nhìn tỉnh

Thread của Matthew rất mạnh ở chỗ economic framing, nhưng phần geopolitical risk có xu hướng đẩy hơi xa hơn dữ kiện kỹ thuật. Nếu model đã là open weights và self-host được, rủi ro không biến mất, nhưng nó cũng không đơn giản như một SaaS black-box có thể bị khoá công tắc từ xa.

6) Cái mà Mỹ thực sự phải lo, theo Matthew, là return on investment

Có một đoạn trong thread nghe gần như là macro thesis: trillions of dollars đang đổ vào AI ở Mỹ, tốc độ build hạ tầng nhanh nhất lịch sử, và khoản đầu tư đó cần được hoàn vốn. Nếu nhu cầu enterprise toàn cầu đi đường vòng qua các model open-source Trung Quốc vì chúng đủ tốt và rẻ hơn nhiều, thì ROI cho các labs closed-source Mỹ sẽ co lại rất mạnh.

Nói ngắn gọn, Matthew đang bảo rằng mối đe doạ không chỉ là mất người dùng; nó là việc mất quyền định giá tầng model.

7) Thread chốt bằng hai đề xuất rất rõ

Matthew kết thúc bằng hai hướng mà anh ta nghĩ Mỹ phải làm:

Mỹ phải đi mạnh hơn vào open source — vì hiện tại các frontier labs Mỹ nhìn chung không thân thiện với open source, và ngay cả Google cũng mới chủ yếu open ở cỡ nhỏ hơn.
Nếu vẫn ở closed source, thì OpenAI và Anthropic phải giảm giá nhanh hơn nhiều — vì doanh nghiệp đang làm toán, và hiện tại phép toán đó không nghiêng về phía họ.

Đây là đoạn mình thấy đáng bàn nhất. Nó thừa nhận rằng cuộc chiến model layer có thể không kết thúc bằng “ai thông minh nhất thắng”, mà bằng ai đủ tốt, đủ rẻ và đủ dễ tích hợp để được tổ chức chọn.

Phản ứng cộng đồng dưới thread nói lên điều gì?

Replies dưới thread khá đúng kiểu chia phe:

Phe pricing-first: đồng ý rằng 95% chất lượng ở 5% giá là quá hấp dẫn để bỏ qua.
Phe trust/compliance: cho rằng enterprise-level data và political risk sẽ chặn adoption mạnh hơn Matthew nghĩ.
Phe open-source-realists: lập luận rằng nếu open weights tự host được, giá trị sẽ dần chuyển lên managed services, applications và harness layer chứ không chỉ nằm ở raw model.

Thật ra chính một reply rất hay trong thread đã chạm đúng chỗ này: frontier labs có thể đã biết mình không thắng được API war, nên rốt cuộc phải cạnh tranh ở tầng cao hơn — managed services, ứng dụng, workflow, harness. Đây là một phản biện khá mạnh với thesis “mất model layer là mất tất cả”.

🚨 Chốt một câu

Matthew Berman đúng ở một điểm rất quan trọng: DeepSeek V4 không cần phải mạnh nhất để gây ra khủng hoảng cho labs Mỹ. Nó chỉ cần đủ tốt, open weights và rẻ hơn rất nhiều để enterprise math bắt đầu chạy theo hướng khác. Từ khoảnh khắc đó, câu chuyện không còn là benchmark, mà là ai sở hữu economics của tầng model, ai giữ được ROI của cơn sốt hạ tầng AI, và giá trị sẽ dồn xuống model hay leo lên harness/application layer.

Nguồn & tham khảo

Đọc tiếp Top AI Papers Của Tuần (19-26/4): DeepSeek V4, Autogenesis, Skill-RAG, Stateless Memory

Xem tất cả bài viết

DeepSeek V4 Open Weights AI Economics Geopolitics Enterprise AI