TL;DR
Một thread đang được share khá mạnh trên X vừa tóm gọn 5 kiến trúc phần cứng gánh AI hiện tại: CPU, GPU, TPU, NPU và LPU. Điểm quan trọng không nằm ở chuyện nhớ tên chip, mà ở việc mỗi loại đánh đổi rất khác nhau giữa tính linh hoạt, mức độ song song và cách truy cập bộ nhớ. Nếu đọc theo đúng thứ tự thread, đây gần như là một bản đồ tiến hóa của AI compute: từ general-purpose compute sang những cỗ máy ngày càng chuyên biệt cho từng kiểu workload.
Visual từ tweet gốc của Akshay Pachaar, đặt 5 kiến trúc CPU, GPU, TPU, NPU và LPU cạnh nhau để nhìn rõ trade-off bên trong.
Thread này nên đọc như một mạch tiến hóa, không phải list định nghĩa
Điểm hay của thread là nó không chỉ liệt kê 5 cái tên nghe choáng đầu. Nó đi từ CPU — thứ linh hoạt và tổng quát nhất — sang LPU — thứ chuyên biệt và cực đoan nhất cho latency của AI serving. Đó cũng là cách thị trường AI compute đang vận động: mỗi bước tiến thường là bớt tổng quát đi một chút để đổi lấy hiệu suất cao hơn cho một kiểu bài toán cụ thể.
CPU
Linh hoạt, giỏi logic
GPU
Song song cực mạnh
TPU
Chuyên cho ma trận
NPU
Inference ít điện
LPU
Độ trễ cực thấp
1) CPU: vẫn là ông cầm trịch phần logic khó chịu nhất
CPU là loại quen nhất vì nó sinh ra để làm general-purpose computing. Thay vì có hàng nghìn lõi nhỏ, CPU thường có ít lõi hơn nhưng mỗi lõi mạnh hơn, xử lý tốt các đoạn code nhiều rẽ nhánh, điều kiện, control flow và tác vụ hệ thống.
Trong thread, Akshay nhấn vào đúng điểm quan trọng: CPU có cache hierarchy sâu và dựa vào DRAM off-chip. Điều này làm nó cực hợp với operating system, database, scheduler, orchestration và các logic không đều tay. Nhưng đem CPU đi cày mấy khối nhân ma trận lặp đi lặp lại thì khá phí sức.
💡 Hiểu nhanh
Trong AI stack, CPU thường không phải “người gánh hết AI”, mà là người điều phối: chuẩn bị dữ liệu, gọi runtime, quản lý I/O, điều khiển job và xử lý phần logic không đều mà accelerator khác không thích.
2) GPU: vì sao AI training gần như bị nó thống trị?
Nếu CPU mạnh ở logic phức tạp, GPU mạnh ở chỗ ngược lại: làm cùng một kiểu phép tính trên rất nhiều phần dữ liệu cùng lúc. Đó là lý do thread mô tả GPU như một hệ hàng nghìn lõi nhỏ cùng thực thi một instruction trên các data khác nhau.
Neural network lại đúng là bài toán kiểu đó: nhân ma trận, cộng dồn, activation, lặp đi lặp lại với khối lượng cực lớn. Vì thế GPU gần như trở thành mặc định cho training hiện đại.
Nhưng GPU không phải không có điểm yếu. Nó vẫn dựa rất mạnh vào bộ nhớ ngoài băng thông cao như HBM, nên bottleneck memory movement vẫn là chuyện sống còn. Cũng vì vậy mà cả thế giới tối ưu AI training vẫn đang xoay quanh batching, locality và làm sao đỡ kéo dữ liệu qua lại quá nhiều.
3) TPU: đẩy specialization lên mức phần cứng được sinh ra cho neural nets
Nếu GPU là “cực giỏi một loại toán vì quá nhiều lõi song song”, thì TPU đi xa hơn: nó được thiết kế hẳn quanh kiểu dataflow của neural network. Thread mô tả phần cốt lõi của TPU là một lưới MAC units nơi weight đi từ một phía, activation đi từ phía kia, còn partial sum lan qua mảng theo dạng sóng.
Điểm đáng để ý là execution ở đây mang tính compiler-controlled nhiều hơn là để phần cứng tự scheduler như kiểu truyền thống. Nghĩa là bạn đã bắt đầu dịch từ “phần cứng đa dụng” sang “cỗ máy rất giỏi nếu workload khớp đúng món nó được sinh ra để làm”.
Nói dễ hiểu: TPU là bước cho thấy AI compute bắt đầu bẻ lái khỏi triết lý “một con chip làm mọi thứ” để sang triết lý “làm ít thứ hơn nhưng làm nhanh, đều và ít lãng phí hơn”.
4) NPU: AI trên thiết bị nhỏ sống được nhờ kiểu chip này
Thread gọi NPU là biến thể tối ưu cho edge, và mô tả này khá chuẩn. Về mặt tinh thần, NPU cũng xoay quanh neural compute engine, MAC arrays và SRAM on-chip. Nhưng thay vì hướng tới những cỗ máy ngốn điện hàng trăm watt, NPU sinh ra để chạy inference trong mức điện năng rất thấp.
Đó là lý do NPU cực hợp với điện thoại, wearables, laptop mỏng nhẹ, camera thông minh hay IoT devices. Bạn không cần throughput kiểu datacenter; bạn cần thứ gì đó đủ nhanh, đủ riêng tư, và không giết pin.
Comment trong thread cũng chạm đúng chỗ này: nhiều người dùng AI hằng ngày trên điện thoại mà không ý thức rằng phần lớn trải nghiệm đó chỉ tồn tại được vì có NPU/Neural Engine phía dưới.
Điểm thực dụng nhất của NPU
NPU không cố thắng GPU ở training datacenter. Nó thắng ở chỗ khác: đưa AI xuống thiết bị cá nhân với chi phí điện và độ trễ chấp nhận được.
5) LPU: cực đoan hóa inference latency bằng cách bóp chặt memory path
LPU — Language Processing Unit — là phần mới nhất và cũng gây tò mò nhất trong thread. Ở đây, Groq đẩy triết lý chuyên biệt đi rất xa: đưa off-chip memory ra khỏi critical path và giữ toàn bộ weight storage trong SRAM on-chip.
Khi execution được compiler schedule hoàn toàn và dữ liệu không phải lang thang qua cache miss hay runtime scheduling overhead, lợi ích lớn nhất là độ trễ rất thấp và rất đều. Với các workload cần phản hồi siêu nhanh, đây là một lợi thế thật.
Đổi lại, cái giá phải trả cũng khá rõ: memory per chip bị giới hạn hơn nhiều. Nghĩa là để phục vụ model lớn, bạn phải ghép rất nhiều chip với nhau. Thread nói thẳng luôn: latency advantage là thật, nhưng không có bữa trưa miễn phí.
⚠️ Chỗ dễ bị hype quá tay
LPU nghe rất sexy vì “zero cache miss”, “deterministic execution”, “siêu thấp latency”. Nhưng nếu workload của bạn không sống chết vì jitter/latency, hoặc economics scale-out không đẹp, thì GPU vẫn có thể là lựa chọn ROI tốt hơn.
Nhìn 5 kiến trúc cạnh nhau thì thấy điều gì?
| Kiến trúc | Mạnh ở đâu | Trade-off chính | Workload hợp nhất |
|---|---|---|---|
| CPU | Linh hoạt, logic, orchestration | Không hợp toán lặp khối lớn | OS, scheduler, data prep, control flow |
| GPU | Song song cực mạnh | Lệ thuộc memory bandwidth lớn | AI training, inference quy mô lớn |
| TPU | Dataflow ma trận chuyên biệt | Kém tổng quát hơn GPU/CPU | Neural network workloads tối ưu hoá cao |
| NPU | Inference tiết kiệm điện | Không nhắm vào throughput datacenter | Phone, laptop, edge AI, IoT |
| LPU | Latency thấp, execution deterministic | Memory per chip hạn chế, phải scale-out | Low-latency serving, real-time AI |
Điều quan trọng nhất: AI compute không đi theo một “chip thống nhất”
Nếu thread này gợi ra một ý lớn, thì đó là: AI không tiến tới chỗ một loại silicon ăn hết mọi thứ. Ngược lại, nó đang phân hoá mạnh hơn. Training, inference cloud, inference on-device, real-time serving, orchestration và system logic đang đòi các kiểu phần cứng khác nhau.
Nói thẳng một câu: cuộc chơi không còn là “ai mạnh nhất”, mà là workload nào thì xứng với loại silicon nào.
Cộng đồng phản ứng ra sao?
Replies dưới thread khá dễ đoán nhưng vẫn đáng chú ý:
- Phe thích tính ứng dụng: khen visual rõ, dễ hiểu, hiếm khi thấy một thread hardware mà người không chuyên vẫn đọc nổi.
- Phe thực dụng: quay lại câu hỏi ROI, nhất là với LPU — nghe hay nhưng bill với deployment thực tế mới là thứ quyết định.
- Phe edge/on-device: tập trung vào NPU, vì đúng là số đông đang dùng AI trên thiết bị mỗi ngày mà không để ý hạ tầng phía dưới.
- Phe hệ thống/hybrid: có người đẩy thẳng sang idea chiplet và hệ heterogeneous, tức là thay vì chọn một kiến trúc thắng hết, hãy ghép nhiều loại lại để route đúng workload.
Phần reply dài nhất trong thread thực ra cũng đẩy đúng hướng này: tương lai có thể không phải một “siêu chip vạn năng”, mà là các gói heterogeneous/chiplet nơi CPU, GPU, TPU-like, NPU và LPU-style blocks cùng tồn tại và được runtime phân việc thông minh.
🚨 Chốt lại
CPU, GPU, TPU, NPU và LPU không phải 5 cái tên để nhớ cho vui. Chúng là 5 cách rất khác nhau để đánh đổi giữa tính linh hoạt, mức độ song song, điện năng và bộ nhớ. Nhìn chúng cạnh nhau sẽ thấy rõ AI compute đang đi từ general-purpose sang extreme specialization — và càng về sau, câu hỏi quan trọng nhất sẽ là workload của bạn nên nằm trên silicon nào, chứ không phải “chip nào đang hot nhất trên X”.