Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần
Nhưng liệu phần mềm này có giúp Trung Quốc thoát khỏi phụ thuộc vào các loại GPU cao cấp nhất của NVIDIA không?
Trong nỗ lực để duy trì vị thế tại thị trường Trung Quốc nhưng vẫn đảm bảo tuân thủ các quy định về hạn chế xuất khẩu công nghệ của chính phủ Mỹ, NVIDIA đã giới thiệu GPU H800, một phiên bản bị “rút gọn” về hiệu năng và tính năng của GPU H100, để bán tại Trung Quốc.
Thế nhưng DeepSeek của Trung Quốc dường như đã tìm được lối thoát cho việc này mà không cần phải dựa vào các nâng cấp về phần cứng. Mới đây trong chuỗi sự kiện "OpenSource Week" của mình, startup AI đình đám này đã công bố một giải pháp phần mềm có tên FlashMLA – một “decoding kernel” được thiết kế đặc biệt cho kiến trúc dòng GPU Hopper của NVIDIA, có thể “vắt kiệt” sức mạnh của GPU H800 để tăng tốc quá trình huấn luyện AI. Hiện công cụ này được công bố dưới dạng mã nguồn mở trên GitHub.
Điểm đặc biệt là công cụ này tối ưu hóa hiệu năng không thông qua nâng cấp phần cứng, mà bằng cách điều chỉnh thuật toán và quản lý tài nguyên một cách thông minh. Cụ thể, FlashMLA áp dụng kỹ thuật nén "low-rank key-value" để chia nhỏ dữ liệu, qua đó giảm tiêu thụ bộ nhớ từ 40-60% so với các cơ chế xử lý truyền thống mà không ảnh hưởng tới độ chính xác.
Giải pháp này cũng sử dụng hệ thống phân trang dựa trên khối (block-based paging system), do đó bộ nhớ động được phân bổ linh hoạt theo cường độ tác vụ, cải thiện khả năng xử lý chuỗi dữ liệu có độ dài biến đổi.

FlashMLA được DeepSeek mã nguồn mở trên GitHub
Theo tuyên bố của DeepSeek, giải pháp của họ giúp tăng tốc xử lý AI của GPU H800 lên 580 TFLOPS (TeraFLOPS) đối với phép nhân ma trận BF16 – cao hơn 8 lần so với điểm số tiêu chuẩn của toàn ngành khi sử dụng GPU H800 cho việc huấn luyện AI (khoảng 73,5 TFLOPS mà không tối ưu hóa).
Băng thông bộ nhớ cũng được đẩy lên 3000 GB/s, gần gấp đôi giới hạn lý thuyết của H800 (1681 GB/s). Những con số này cho thấy DeepSeek không chỉ vượt qua giới hạn phần cứng mà còn thiết lập một chuẩn mực mới về hiệu quả tính toán.

Thông số hiệu năng của H800 sau tối ưu cao gấp 8 lần so với điểm số thông thường
Nhờ những cải tiến này, FlashMLA giúp tăng tốc độ suy luận trên các mô hình ngôn ngữ lớn với kích thước 176 tỷ tham số lên gấp 2,3 lần so với các phương pháp triển khai mới nhất hiện nay. Hiện tại DeepSeek đã triển khai công cụ này trong môi trường sản xuất thực tế, chứng tỏ giải pháp này có tính ứng dụng cao.
Dù được tăng cường đáng kể về khả năng xử lý, các thông số về khả năng xử lý của GPU H800 sau khi tối ưu về phần mềm vẫn thấp hơn so với GPU H100 tiêu chuẩn - GPU tiên tiến nhất trong các GPU kiến trúc Hopper.
Sức mạnh tính toán: H100 đạt 989 TFLOPS ở định dạng BF16 theo thông số lý thuyết, vượt trội hơn so với 580 TFLOPS của H800 với FlashMLA. Tuy nhiên, FlashMLA đã thu hẹp đáng kể khoảng cách, đưa H800 lên mức gần 60% hiệu suất đỉnh của H100 chỉ bằng phần mềm.

Thông số hiệu năng của GPU NVIDIA H100 vẫn cao hơn H800 sau khi tối ưu bằng giải pháp của DeepSeek
Băng thông bộ nhớ: H100 có lợi thế với 3350 GB/s nhờ sử dụng HBM3, trong khi H800 với FlashMLA đạt 3000 GB/s. Dù thua kém một chút, H800 vẫn cho thấy khả năng tối ưu hóa xuất sắc khi vượt xa giới hạn phần cứng ban đầu của nó. Không có giải pháp FlashMLA, H100 sẽ nhanh hơn H800 khoảng 1,5-2 lần trong các tác vụ AI tiêu chuẩn.
Giải pháp FlashMLA của DeepSeek đối với GPU H800 là minh chứng rõ ràng rằng phần mềm có thể bù đắp cho hạn chế phần cứng. Cho dù GPU H100 vẫn dẫn đầu về sức mạnh thô, DeepSeek mở ra khả năng rằng với tối ưu hóa tương tự, H100 có thể đạt đến những tầm cao mới, vượt xa hiệu suất hiện tại. Với việc công cụ này được công bố dưới dạng mã nguồn mở trên GitHub, nhiều khả năng nó sẽ được nhiều người thử nghiệm trên dòng H100 trong tương lai để xem có thể đẩy sức mạnh của nó lên đến mức nào.
NỔI BẬT TRANG CHỦ
Máy tính lượng tử có thể làm sụp đổ internet, nhưng con chip đột phá này sẽ chặn đứng điều đó
QS7001 được thiết kế để đối phó với mối đe dọa này bằng cách kết hợp hai giao thức mã hóa chống lượng tử do NIST phát triển: Dilithium và Kyber.
Đây là con tàu duy nhất trên Trái Đất có khả năng “bốc đầu” giữa đại dương: Hải quân Mỹ chế tạo ra nó để làm gì?