Tại sao AI của DeepSeek có thể rẻ hơn 20 lần so với ChatGPT, bí quyết không phải là công nghệ hay thiết bị
Hóa ra không phải chỉ các phần cứng cao cấp mới có thể làm nên một AI mạnh mẽ, DeepSeek còn có một bí mật khác khó ai có thể bắt chước được.
- Vì sao Trung Quốc "nhấn chìm" 400 máy chủ AI siêu mạnh xuống đáy biển?
- Trung Quốc bị Mỹ "trói tay" bằng GPU NVIDIA H800 hiệu năng thấp, DeepSeek "phát không" phần mềm bẻ khóa hiệu năng, tăng tốc xử lý lên gấp 8 lần
- Chip AI Huawei vừa đạt được điều mà trước đây chỉ NVIDIA H100 làm được: Trung Quốc giờ không còn là “mỏ vàng” của NVIDIA, mà là chiến trường sống còn
- Trước khi DeepSeek xuất hiện, Trung Quốc chi hàng tỷ đô cho phần cứng AI nhưng chỉ dùng được có 20% công suất: Chuyện gì đã xảy ra?
Trong bối cảnh cuộc đua AI toàn cầu ngày càng khốc liệt, một cái tên đến từ Trung Quốc - DeepSeek - đã tạo ra cú sốc lớn cho thị trường công nghệ thế giới. Không chỉ gây ấn tượng với mô hình AI cạnh tranh trực tiếp với ChatGPT, DeepSeek còn khiến các nhà đầu tư kinh ngạc khi cung cấp dịch vụ với mức giá rẻ hơn tới 20-40 lần so với đối thủ phương Tây.
Giá rẻ hơn, hiệu năng và tính năng tương đương đã biến DeepSeek thành mô hình AI cạnh tranh đáng sợ nhất của ChatGPT. Điều đáng ngạc nhiên là bí quyết đằng sau thành công này không nằm ở công nghệ tiên tiến hay thiết bị hiện đại, mà lại đến từ một yếu tố khác.

Điều khiến DeepSeek trở nên đặc biệt ấn tượng là công ty này đã đạt được thành tựu này trong hoàn cảnh bị cấm vận từ Mỹ, không có quyền tiếp cận GPU thế hệ mới nhất dành cho phát triển AI. Tuy nhiên, thay vì bỏ cuộc, DeepSeek đã phát triển các công cụ phần mềm để huấn luyện AI với chi phí thấp hơn nhiều so với đối thủ phương Tây.
Bí quyết cho thành công của DeepSeek
Nhưng có một yếu tố đằng sau các giải pháp phần mềm này mới là "bí quyết" thực sự của DeepSeek, không phải ở công nghệ đột phá hay thiết bị siêu việt, mà là ở con người và văn hóa công ty. Theo báo cáo của Reuters, nhân viên tại DeepSeek thực sự yêu thích làm việc tại đây nhờ vào văn hóa công ty và phương pháp kinh doanh khác biệt so với các công ty công nghệ lớn khác của Trung Quốc.
Liang Wenfeng, nhà sáng lập 40 tuổi của DeepSeek, đã xây dựng công ty theo mô hình phòng nghiên cứu thay vì một công ty AI vì lợi nhuận. Điều này đã tạo ra sự khác biệt lớn trong cách điều hành:

Liang Wenfeng, nhà sáng lập 40 tuổi của DeepSeek
- Chống lại văn hóa "996": Trong khi hầu hết các công ty công nghệ Trung Quốc áp dụng lịch làm việc "996" (9 giờ sáng đến 9 giờ tối, sáu ngày một tuần), các nhà nghiên cứu tại DeepSeek chỉ làm việc 8 giờ mỗi ngày.
- Đãi ngộ xứng đáng: Các kỹ sư tại DeepSeek được trả lương hậu hĩnh. Báo cáo cho biết các nhà khoa học dữ liệu cấp cao tại High-Flyer (công ty mẹ) có thể nhận được khoảng 1,5 triệu nhân dân tệ mỗi năm (khoảng 206.000 USD), gấp đôi so với mức lương tại các công ty đối thủ.
- Trao quyền cho nhân viên trẻ: Wenfeng tuyển dụng các kỹ sư trẻ mới ra trường, làm việc sát cánh cùng họ và cho phép họ làm chủ các dự án nghiên cứu của DeepSeek. Công ty cũng không có cấu trúc phân cấp truyền thống. Các nhóm được nhóm lại theo mục tiêu mà không có sự phân công lao động cố định hoặc mối quan hệ cấp trên-cấp dưới. Cấu trúc phẳng này cải thiện đáng kể hiệu quả giao tiếp và cho phép mọi người thoải mái thể hiện ý tưởng của mình.
Khó có thể OpenAI không làm được điều tương tự với nhân viên của mình, nhưng nếu nhìn vào việc hàng loạt lãnh đạo và nhân viên cấp cao của công ty rời đi để lập các startup AI riêng cho mình, nhiều khả năng họ cũng không mấy hạnh phúc khi tiếp tục ở lại OpenAI. Điều này càng cho thấy khả năng quản lý cấp cao của DeepSeek đối với nhân viên của mình.

Trong 4 lãnh đạo cấp cao của OpenAI trước đây, giờ chỉ còn lại Sam Altman
Chiến lược tối ưu hóa: Làm nhiều với ít hơn
Chiến lược nhân sự đang mang lại nhiều lợi ích. Mặc dù bị cấm tiếp cận GPU mới nhất từ năm 2022, DeepSeek vẫn có cách để phát triển các mô hình AI tiên tiến. Trước lệnh cấm, công ty đã mua hai cụm siêu máy tính, bao gồm Fire-Flyer II với 10.000 chip NVIDIA A100. Có tin đồn rằng công ty có thể đã đưa lậu hàng chục nghìn chip bổ sung sau đó, mặc dù điều này khó có thể được xác nhận.
DeepSeek đã phát triển các kỹ thuật phần mềm đổi mới để tối đa hóa hiệu suất với phần cứng hạn chế:
- Mixture-of-Experts (MoE): Công nghệ này cho phép DeepSeek chỉ kích hoạt những phần cần thiết của mô hình AI để xử lý một tác vụ, tiết kiệm đáng kể tài nguyên tính toán.
- Multihead Latent Attention (MLA): Kỹ thuật này cho phép DeepSeek AI xử lý nhiều khía cạnh của một yêu cầu cùng một lúc, tăng hiệu quả xử lý. Ban đầu chỉ là một dự án sở thích của các nhà nghiên cứu trẻ, nhưng khi nhận thấy tiềm năng, công ty thành lập một nhóm nghiên cứu và cuối cùng đã thành công trong việc giảm chi phí huấn luyện AI.
- Mới đây nhất là FlashMLA, một giải pháp phần mềm nhằm chỉnh sửa lại nhân kernel trong GPU H800 của NVIDIA sẽ giúp tăng tốc xử lý của phần cứng này lên gấp 8 lần so với trước. Quan trọng hơn DeepSeek còn mã nguồn mở giải pháp này để mọi người đều có thể tiếp cận.

Nhờ những tối ưu hóa phần mềm này, DeepSeek có thể cung cấp dịch vụ AI với giá thấp hơn nhiều so với đối thủ phương Tây. Các nhà phân tích ước tính giá của DeepSeek có thể rẻ hơn 20 đến 40 lần so với các công cụ ChatGPT, tạo áp lực buộc OpenAI và Google phải cắt giảm chi phí cho ChatGPT và Gemini.
DeepSeek không dừng lại ở đây. Công ty đang lên kế hoạch phát hành mô hình DeepSeek R2 trước tháng 5, sớm hơn dự kiến. Mô hình mới này được kỳ vọng sẽ có khả năng lập trình tốt hơn R1 và sẽ giới thiệu hỗ trợ lập luận đa ngôn ngữ. Việc thời gian phát triển mô hình mới rút ngắn lại trong khi đối thủ OpenAI của Mỹ đang phải kéo dài thời gian phát triển sản phẩm của mình cho thấy DeepSeek đang còn nhiều dư địa để phát triển hơn.
Trong khi đó, DeepSeek đang nhanh chóng trở thành một câu chuyện thành công tại Trung Quốc. Khoảng 13 chính quyền thành phố lớn và 10 công ty năng lượng nhà nước hiện đang sử dụng DeepSeek AI trong hoạt động của mình. Các gã khổng lồ công nghệ như Baidu, Lenovo và Tencent cũng đã bắt đầu áp dụng công nghệ này dù vẫn phát triển công nghệ AI riêng.
Không lâu sau khi DeepSeek trỗi dậy, nhiều nền tảng AI khác đều nỗ lực phát hành các sản phẩm với giá rẻ hơn, hoặc thậm chí miễn phí cho người dùng. Điều đó cho thấy trong thời đại AI, không phải lúc nào yếu tố quyết định thành công cũng là phần cứng tiên tiến nhất hay ngân sách lớn nhất. Các giải pháp tối ưu để tận dụng phần cứng hiện có vẫn còn nhiều dư địa phát triển trong thời gian tới.
Nguyễn Hải
NỔI BẬT TRANG CHỦ
Apple ra mắt iPad Air 2025: Chip M3 mạnh hơn, thiết kế không đổi, giá từ 16,99 triệu đồng
iPad Air được Apple nâng cấp với chipset M3 mạnh hơn, hỗ trợ bàn phím Magic Keyboard mới và Apple Pencil Pro, giá không đổi.
Ra mắt iPad Gen 11: Dùng chip iPhone 15, bộ nhớ gấp đôi, không hỗ trợ Apple Intelligence, giá từ 9,99 triệu đồng