Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần

Nguyễn Hải, Đời sống pháp luật

Nhưng liệu phần mềm này có giúp Trung Quốc thoát khỏi phụ thuộc vào các loại GPU cao cấp nhất của NVIDIA không?

Elon Musk bắt tay đào "lỗ giun" không có điểm mù dưới lòng Dubai: Tự tin sống khỏe cả khi có chiến tranh
Máy tính lượng tử có thể làm sụp đổ internet, nhưng con chip đột phá này sẽ chặn đứng điều đó

Trong nỗ lực để duy trì vị thế tại thị trường Trung Quốc nhưng vẫn đảm bảo tuân thủ các quy định về hạn chế xuất khẩu công nghệ của chính phủ Mỹ, NVIDIA đã giới thiệu GPU H800, một phiên bản bị “rút gọn” về hiệu năng và tính năng của GPU H100, để bán tại Trung Quốc.

Thế nhưng DeepSeek của Trung Quốc dường như đã tìm được lối thoát cho việc này mà không cần phải dựa vào các nâng cấp về phần cứng. Mới đây trong chuỗi sự kiện "OpenSource Week" của mình, startup AI đình đám này đã công bố một giải pháp phần mềm có tên FlashMLA – một “decoding kernel” được thiết kế đặc biệt cho kiến trúc dòng GPU Hopper của NVIDIA, có thể “vắt kiệt” sức mạnh của GPU H800 để tăng tốc quá trình huấn luyện AI. Hiện công cụ này được công bố dưới dạng mã nguồn mở trên GitHub.

NVIDIA bị tố cố tình 'găm hàng' RTX 50 Series: Tạo khan hiếm giả để đẩy giá GPU?ĐỌC NGAY

Điểm đặc biệt là công cụ này tối ưu hóa hiệu năng không thông qua nâng cấp phần cứng, mà bằng cách điều chỉnh thuật toán và quản lý tài nguyên một cách thông minh. Cụ thể, FlashMLA áp dụng kỹ thuật nén "low-rank key-value" để chia nhỏ dữ liệu, qua đó giảm tiêu thụ bộ nhớ từ 40-60% so với các cơ chế xử lý truyền thống mà không ảnh hưởng tới độ chính xác.

Giải pháp này cũng sử dụng hệ thống phân trang dựa trên khối (block-based paging system), do đó bộ nhớ động được phân bổ linh hoạt theo cường độ tác vụ, cải thiện khả năng xử lý chuỗi dữ liệu có độ dài biến đổi.

Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần- Ảnh 2. — FlashMLA được DeepSeek mã nguồn mở trên GitHub

Theo tuyên bố của DeepSeek, giải pháp của họ giúp tăng tốc xử lý AI của GPU H800 lên 580 TFLOPS (TeraFLOPS) đối với phép nhân ma trận BF16 – cao hơn 8 lần so với điểm số tiêu chuẩn của toàn ngành khi sử dụng GPU H800 cho việc huấn luyện AI (khoảng 73,5 TFLOPS mà không tối ưu hóa).

Băng thông bộ nhớ cũng được đẩy lên 3000 GB/s, gần gấp đôi giới hạn lý thuyết của H800 (1681 GB/s). Những con số này cho thấy DeepSeek không chỉ vượt qua giới hạn phần cứng mà còn thiết lập một chuẩn mực mới về hiệu quả tính toán.

Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần- Ảnh 3. — Thông số hiệu năng của H800 sau tối ưu cao gấp 8 lần so với điểm số thông thường

Nhờ những cải tiến này, FlashMLA giúp tăng tốc độ suy luận trên các mô hình ngôn ngữ lớn với kích thước 176 tỷ tham số lên gấp 2,3 lần so với các phương pháp triển khai mới nhất hiện nay. Hiện tại DeepSeek đã triển khai công cụ này trong môi trường sản xuất thực tế, chứng tỏ giải pháp này có tính ứng dụng cao.

Dù được tăng cường đáng kể về khả năng xử lý, các thông số về khả năng xử lý của GPU H800 sau khi tối ưu về phần mềm vẫn thấp hơn so với GPU H100 tiêu chuẩn - GPU tiên tiến nhất trong các GPU kiến trúc Hopper.

Sức mạnh tính toán: H100 đạt 989 TFLOPS ở định dạng BF16 theo thông số lý thuyết, vượt trội hơn so với 580 TFLOPS của H800 với FlashMLA. Tuy nhiên, FlashMLA đã thu hẹp đáng kể khoảng cách, đưa H800 lên mức gần 60% hiệu suất đỉnh của H100 chỉ bằng phần mềm.

Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần- Ảnh 4. — Thông số hiệu năng của GPU NVIDIA H100 vẫn cao hơn H800 sau khi tối ưu bằng giải pháp của DeepSeek

Băng thông bộ nhớ: H100 có lợi thế với 3350 GB/s nhờ sử dụng HBM3, trong khi H800 với FlashMLA đạt 3000 GB/s. Dù thua kém một chút, H800 vẫn cho thấy khả năng tối ưu hóa xuất sắc khi vượt xa giới hạn phần cứng ban đầu của nó. Không có giải pháp FlashMLA, H100 sẽ nhanh hơn H800 khoảng 1,5-2 lần trong các tác vụ AI tiêu chuẩn.

Giải pháp FlashMLA của DeepSeek đối với GPU H800 là minh chứng rõ ràng rằng phần mềm có thể bù đắp cho hạn chế phần cứng. Cho dù GPU H100 vẫn dẫn đầu về sức mạnh thô, DeepSeek mở ra khả năng rằng với tối ưu hóa tương tự, H100 có thể đạt đến những tầm cao mới, vượt xa hiệu suất hiện tại. Với việc công cụ này được công bố dưới dạng mã nguồn mở trên GitHub, nhiều khả năng nó sẽ được nhiều người thử nghiệm trên dòng H100 trong tương lai để xem có thể đẩy sức mạnh của nó lên đến mức nào.

Theo Đời sống pháp luật Copy link

Link bài gốc Lấy link

https://doisongphapluat.nguoiduatin.vn/trung-quoc-bi-my-troi-tay-bang-gpu-nvidia-h800-hieu-nang-thap-deepseek-phat-khong-phan-mem-be-khoa-hieu-nang-tang-toc-xu-ly-len-gap-8-lan-a511843.html

Tin cùng chuyên mục

Xem theo ngày

NỔI BẬT TRANG CHỦ

"Thành trì" cuối cùng ngăn cản người dùng iPhone chuyển sang điện thoại Galaxy vừa bị phá vỡ ở Việt Nam

Người dùng Galaxy S26, S26 và S26 Ultra tại Việt Nam đã bắt đầu nhận bản cập nhật mở khóa khả năng chuyển file trực tiếp với iPhone và MacBook qua Quick Share - tính năng mà trước đây chỉ dành riêng cho hệ sinh thái Apple.
Biết cách "bắt vibe" cùng Gen Z sẽ khiến Galaxy A57 và A37 5G trở nên đáng mua nhất lúc này

Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần

Nhưng liệu phần mềm này có giúp Trung Quốc thoát khỏi phụ thuộc vào các loại GPU cao cấp nhất của NVIDIA không?

NVIDIA bị tố cố tình 'găm hàng' RTX 50 Series: Tạo khan hiếm giả để đẩy giá GPU?ĐỌC NGAY

"Thành trì" cuối cùng ngăn cản người dùng iPhone chuyển sang điện thoại Galaxy vừa bị phá vỡ ở Việt Nam

Biết cách "bắt vibe" cùng Gen Z sẽ khiến Galaxy A57 và A37 5G trở nên đáng mua nhất lúc này