TL;DR
NVIDIA đang cho developer dùng miễn phí hơn 100 model frontier (MiniMax M2.7 230B MoE, DeepSeek V3.2, GLM-5.1, Llama 4, Qwen3-Coder...) qua API OpenAI-compatible. 1000 credits miễn phí, không cần thẻ tín dụng, rate limit 40 RPM. Đây là chiến lược top-of-funnel cực kỳ thông minh: cho bạn dùng miễn phí để bạn quen với NVIDIA ecosystem, sau đó bán enterprise khi bạn cần scale.
NVIDIA NIM: Free tier thực sự mạnh
Trong khi hầu hết các lab AI Trung Quốc và Mỹ đều đẩy model mạnh ra sau paywall, NVIDIA lại làm ngược lại. Họ mở toàn bộ catalog NIM (NVIDIA Inference Microservices) cho public dùng miễn phí, với API key thật, không expiry, không credit card.
Thread từ @iam_elias1 trên X đã viral với hơn 31.000 reposts chỉ trong 48 giờ, và câu hỏi phổ biến nhất là: "Tại sao không ai nói về cái này?"
Các model đáng chú ý nhất
MiniMax M2.7
Coding & ReasoningModel 230 tỷ tham số với kiến trúc Sparse MoE, 8 experts active mỗi token. Đang được nhiều công ty Trung Quốc trả tiền để dùng qua API MiniMax.
DeepSeek V3.2
Cost EfficiencyModel từng khiến thị trường toàn cầu hoảng loạn khi chứng minh AI Trung Quốc có thể sánh ngang Mỹ với chi phí chỉ bằng một phần nhỏ.
GLM-5.1 / GLM-4.7
MultilingualFlagship model cho agentic tasks, tool use, UI generation và long-horizon reasoning. Hỗ trợ đa ngôn ngữ tốt.
Cách setup trong 60 giây
Vì endpoint tương thích OpenAI SDK, bạn chỉ cần đổi 2 thứ:
- Base URL:
https://integrate.api.nvidia.com/v1 - API Key: Lấy tại build.nvidia.com (bắt đầu bằng
nvapi-)
Model ID ví dụ: minimaxai/minimax-m2.7, deepseek-ai/deepseek-v3.2, meta/llama-4-maverick...
Cursor, Zed, OpenCode, Hermes agent, Claude Code đều hoạt động ngay mà không cần thay đổi code.
Chiến lược kinh doanh cực kỳ thông minh
Nhiều người nghĩ NVIDIA đang "cho không biếu không". Thực ra đây là một trong những chiến lược customer acquisition hay nhất ngành enterprise AI hiện nay.
Quy trình họ thiết kế:
Free tier không phải sản phẩm. Nó là cái bẫy (theo nghĩa tích cực) để đưa developer vào hệ sinh thái NVIDIA.
Hạn chế thực tế
- Chỉ 1000 inference credits khi đăng ký (đủ cho prototyping, không đủ cho production).
- Rate limit 40 requests/phút — phù hợp dev, không phù hợp app thật.
- Các model lớn "ăn" credits rất nhanh.
- Không có SLA, không có priority support.
Nhưng với mục đích học tập, thử nghiệm, side project và đánh giá model trước khi commit ngân sách, thì đây là deal cực tốt.
Cộng đồng phản ứng ra sao?
Thread viral nhanh vì nhiều developer đang đau đầu với chi phí API. Phản ứng chủ yếu là ngạc nhiên và hoài nghi (kiểu "có bắt buộc không?").
"Giving access to models like DeepSeek V3.2 and MiniMax M2.7 under one unified API is a strong move toward platform consolidation."
"Smart funnel design: prototype → experiment → dependency → scale → enterprise contract. Clean, predictable, and effective."
Chốt một câu
NVIDIA không cho bạn dùng model miễn phí vì họ tốt bụng. Họ cho bạn dùng miễn phí vì họ biết: một khi bạn đã quen với stack của họ, bạn sẽ khó rời đi khi cần scale. Đây là cách chơi dài hạn và cực kỳ hiệu quả.