DeepSeek Giảm 75% Giá V4-Pro API Tới 5/5: 1M Context, Cache Hit Chỉ $0.003625

TL;DR

DeepSeek đang giảm 75% giá cho V4-Pro API tới 15:59 UTC ngày 5/5/2026, kéo giá xuống còn $0.003625 cho 1 triệu input token cache hit, $0.435 cho cache miss và $0.87 cho output. Điểm quan trọng hơn chuyện rẻ là DeepSeek đang đóng gói V4-Pro như một model dành thẳng cho các workflow coding agents: Claude Code, OpenCode và OpenClaw, kèm hỗ trợ 1M context qua biến thể deepseek-v4-pro[1m].

Ảnh promo DeepSeek công bố mức giảm giá 75% cho V4-Pro API cùng mốc thời gian kết thúc ưu đãi.

Đợt giảm giá này mạnh ở đúng chỗ dev quan tâm nhất

DeepSeek vừa công bố một đợt giảm giá khá hung cho V4-Pro API: giảm 75% đến 15:59 UTC ngày 5/5/2026. Nếu chỉ nhìn headline thì đây giống một chiến dịch kéo user thử model. Nhưng đọc kỹ pricing và phần integration notes, câu chuyện lớn hơn là DeepSeek đang cố biến V4-Pro thành lựa chọn mặc định cho nhóm dev chạy agent, code review dài và workflow nhiều context.

Input token — cache hit

$0.003625

mỗi 1M token, rẻ hơn giá gốc 4 lần sau khi giảm 75%

Input token — cache miss

$0.435

mỗi 1M token cho input mới hoàn toàn

Output token

$0.87

mỗi 1M token output của V4-Pro trong thời gian ưu đãi

Điểm dễ bị bỏ qua nhất nằm ở giá cache hit. Theo docs chính thức, nếu prompt/context của bạn được tái sử dụng đúng cách, giá input chỉ còn $0.003625/1M token. Đây là mức gần như đẩy long-context agent loops sang một bài toán tối ưu kiến trúc nhiều hơn là tối ưu budget.

Mấy thuật ngữ này thực ra nghĩa là gì?

Nếu không quen đọc bảng giá API model, bài post của DeepSeek khá dễ gây rối vì nó nhét nhiều khái niệm kỹ thuật trong một ảnh nhỏ. Tách ra thì chúng khá đơn giản:

Input token: phần dữ liệu bạn gửi vào model, ví dụ system prompt, user prompt, codebase, tài liệu RAG hoặc lịch sử chat.
Output token: phần model trả ngược lại, ví dụ câu trả lời, code sinh ra, reasoning hoặc tool call arguments.
Cache hit: phần input đã được model/provider nhận diện là trùng hoặc tái sử dụng từ lần trước, nên tính giá rẻ hơn rất nhiều.
Cache miss: phần input mới hoàn toàn, chưa có gì để tái sử dụng, nên bị tính theo giá đầy đủ hơn.
1M context: model có thể nhận tối đa khoảng 1 triệu token trong một cửa sổ ngữ cảnh — tức là nhét được codebase, logs, docs hoặc lịch sử rất dài vào cùng một phiên xử lý.

🧠 Hiểu nhanh bằng ví dụ

Nếu bạn chạy một coding agent với cùng system prompt, cùng rules repo và cùng một đống docs lặp đi lặp lại mỗi lần, phần đó có cơ hội trở thành cache hit. Còn đoạn task mới, file mới hoặc câu hỏi mới mà agent vừa nhận sẽ là cache miss. Vì vậy cùng là “1 triệu token input”, chi phí thực tế có thể khác nhau rất xa tùy cách bạn thiết kế workflow.

Không chỉ giảm giá, DeepSeek còn đóng gói thẳng cho hệ coding agents

Tweet của DeepSeek không chỉ ghi giá mới, mà còn ghi rất rõ các điểm tích hợp:

Claude Code: đổi model sang deepseek-v4-pro[1m] để mở 1M context.
OpenCode: cần bản v1.14.24+.
OpenClaw: cần v2026.4.24+.

Đây là chi tiết quan trọng hơn bề ngoài của nó. DeepSeek không còn bán V4-Pro như một model API chung chung. Họ đang bán nó như một hạ tầng thay model cho coding agent stack. Khi setup chỉ còn là đổi model string hoặc update version tool, câu hỏi không còn là “dùng được không”, mà là “route workload nào sang đây để tối ưu cost nhất”.

💡 Tín hiệu đáng để ý

Việc DeepSeek ghi tên thẳng Claude Code, OpenCode và OpenClaw trong post quảng bá cho thấy họ đang nhắm trực tiếp vào nhóm dev chạy agent workflows, chứ không chỉ săn người gọi API thuần. Đây là cách giành developer mindshare nhanh hơn nhiều so với chỉ khoe benchmark.

V4-Pro đang được đặt cạnh V4-Flash như thế nào?

Theo docs pricing chính thức, cả deepseek-v4-flash lẫn deepseek-v4-pro đều hỗ trợ 1M context, tối đa 384K output, JSON Output, Tool Calls, Prefix Completion và FIM Completion ở non-thinking mode. Sự khác biệt nằm ở giá và định vị workload.

Hạng mục	V4-Flash	V4-Pro (đang giảm)	V4-Pro giá gốc
Input cache hit / 1M	$0.0028	$0.003625	$0.0145
Input cache miss / 1M	$0.14	$0.435	$1.74
Output / 1M	$0.28	$0.87	$3.48
Context length	1M	1M	1M

Nói đơn giản: V4-Flash vẫn là lựa chọn rẻ nhất để iterate nhanh. Nhưng khi V4-Pro bị kéo giá xuống mức này, khoảng cách cost cho những workload cần reasoning nặng, code review dài hoặc agent loops nhiều tool bắt đầu dễ chấp nhận hơn hẳn.

Trong chính thread này có gì đáng chú ý?

Điểm hay là thread của DeepSeek rất ngắn, nhưng replies bên dưới lại cho thấy cộng đồng đang hiểu post này theo vài lớp khác nhau.

Lớp thứ nhất: nhiều người tập trung gần như hoàn toàn vào giá cache hit, vì đây mới là con số chạm trực tiếp vào economics của agent workflows.
Lớp thứ hai: khá nhiều dev hỏi cách gắn model này vào Claude Code, OpenCode, Visual Studio hay các stack agent sẵn có. Tức là nhu cầu không còn là “test model cho vui”, mà là “nhét nó vào toolchain đang chạy thế nào”.
Lớp thứ ba: một số reply xem đây là dấu hiệu cuộc chiến giá giữa các model đang tăng tốc, đặc biệt ở mảng long-context và coding workloads.

Cũng có một nuance đáng chú ý: không phải ai cũng bàn về benchmark. Nhiều người nói thẳng họ quan tâm hơn đến việc model này có đủ tốt trên workload thật hay không, và liệu chi phí rẻ như vậy có biến nó thành lựa chọn mặc định cho các agent chạy hằng ngày hay không.

Cộng đồng đang đọc tín hiệu gì từ đợt giảm giá này?

Phản ứng cộng đồng dưới post khá thú vị, và phần lớn xoay quanh ba ý lớn.

1. Thứ mọi người chú ý nhất là cache hit price

Nhiều reply không quan tâm headline “75% off” bằng con số $0.003625/1M input token cache hit. Lý do đơn giản: với những hệ dùng prompt lặp, long-lived system prompt hoặc RAG/document header tái sử dụng, đó mới là nơi tổng chi phí thật sự tụt mạnh nhất.

2. 1M context đang được nhìn như vũ khí cho agent workflows

Một số dev nói thẳng họ để ý nhất là biến thể deepseek-v4-pro[1m], vì nó đổi bài toán cho các tác vụ như đọc codebase lớn, review repository vài trăm nghìn token hay orchestration nhiều subagent. Tức là cộng đồng không chỉ nhìn đây là “model rẻ”, mà là model rẻ đúng loại workload đang hot.

3. Giá model đang bị kéo vào cuộc đua xuống đáy

Một nhóm khác xem đây là dấu hiệu cho thấy lớp model đang bị hàng hóa hóa rất nhanh. Khi model có thể thay nhau bằng một config file, lợi thế thật dần chuyển sang kiến trúc agent, verification loop và sản phẩm bao quanh model hơn là bản thân model riêng lẻ.

Có cả những câu hỏi hoài nghi cũng đáng giữ lại: DeepSeek có giữ được economics này lâu dài không, giá promo sẽ áp dụng theo ngày mua hay theo ngày sử dụng, và 1M context có thật sự giảm được khối lượng verify/fix ở các coding agents hay chỉ làm cửa sổ ngữ cảnh to hơn trên giấy. Đây là các câu hỏi khá hợp lý, vì model rẻ hơn chưa tự động đồng nghĩa workflow rẻ hơn nếu output kém ổn định hoặc cần nhiều vòng sửa.

⚠️ Điều nên nhìn tỉnh

Giảm giá 75% rất hấp dẫn, nhưng đây vẫn là ưu đãi có hạn tới 5/5/2026. Nếu ai build economics dài hạn dựa thẳng trên giá promo này mà không chuẩn bị cho giá gốc quay lại, rất dễ ảo tưởng unit economics. Điểm bền hơn của post này là DeepSeek đang giành chỗ đứng trong stack tooling của dev, không chỉ giành vài ngày traffic thử model.

Điều đáng chú ý nhất không phải “rẻ”, mà là “rẻ đúng chỗ”

Nếu chỉ xét mức giá, V4-Pro sau giảm đã đủ gây ồn ào. Nhưng điểm mạnh hơn nằm ở cách DeepSeek đóng gói thông điệp:

nêu thẳng tên các công cụ dev đang dùng,
đẩy biến thể 1M context ra trước mặt,
và nhấn vào context caching như một đòn hạ cost thực chiến.

Nói cách khác, đây là một cú đánh vào developer workflow, không chỉ vào bảng giá.

🚨 Chốt lại

DeepSeek đang làm hai việc cùng lúc: dùng giảm giá 75% để kéo developer thử V4-Pro ngay bây giờ, và dùng integration với Claude Code / OpenCode / OpenClaw để chen thẳng model này vào những stack agent đang tăng trưởng nhanh nhất. Nếu đợt này thành công, thứ DeepSeek mua được không chỉ là doanh thu ngắn hạn, mà là vị trí mặc định trong các workflow code-heavy và long-context của dev.

Nguồn & tham khảo

Đọc tiếp OpenClaw 2026.4.24: Voice Calls, DeepSeek V4, Browser Automation, Và Google Meet

Xem tất cả bài viết

DeepSeek API Pricing Claude Code OpenClaw AI Coding