Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ

    Nguyễn Hải,  

    Chỉ bằng cách cải thiện thuật toán và phương pháp đào tạo của mình, DeepSeek đã tạo ra mô hình với hiệu năng tương đương các mô hình hàng đầu thế giới trong khi chi phí thấp hơn hàng chục lần.

    Những bí mật đằng sau thành công của mô hình trí tuệ nhân tạo DeepSeek R1 vừa được hé lộ trong một nghiên cứu mang tính bước ngoặt được công bố trên tạp chí Nature. Mô hình AI đến từ Trung Quốc này đã gây chấn động toàn cầu khi ra mắt vào tháng 1 vừa qua, thậm chí khiến thị trường chứng khoán Mỹ lao dốc mạnh mẽ do lo ngại về sự cạnh tranh từ công nghệ Trung Quốc.

    Điều đáng chú ý nhất mà các nhà nghiên cứu tại DeepSeek tiết lộ là mô hình R1 không hề dựa vào việc học từ đầu ra của các đối thủ để đạt được thành công như vậy. Thông tin này được công bố cùng với phiên bản đã qua thẩm định đồng nghiệp của mô hình R1, đánh dấu lần đầu tiên một mô hình ngôn ngữ lớn trải qua quy trình thẩm định khắt khe này.

    Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ- Ảnh 1.

    R1 được thiết kế để xuất sắc trong các tác vụ "lý luận" như toán học và lập trình, trở thành đối thủ có chi phí thấp hơn nhiều so với các công cụ được phát triển bởi các công ty công nghệ Mỹ. Là một mô hình "trọng số mở", R1 có thể được tải xuống miễn phí bởi bất kỳ ai và hiện đang là mô hình phổ biến nhất trên nền tảng cộng đồng AI Hugging Face với hơn 10,9 triệu lượt tải xuống.

    Điều gây sốc nhất là chi phí đào tạo R1 chỉ có 294.000 USD, con số này chưa tính chi phí 6 triệu USD được dành cho việc tạo ra mô hình ngôn ngữ lớn cơ sở của DeepSeek. Ngay cả như vậy, con số này vẫn thấp hơn hàng chục lần so với các đối thủ đến từ Mỹ.

    Điều thú vị là DeepSeek cho biết R1 chủ yếu được đào tạo trên chip H800 của Nvidia, loại chip đã bị cấm bán cho Trung Quốc theo lệnh kiểm soát xuất khẩu của Mỹ từ năm 2023. Sự thành công này cho thấy khả năng vượt qua các hạn chế công nghệ của các nhà nghiên cứu Trung Quốc.

    Đổi mới lớn nhất của DeepSeek là sử dụng phương pháp học tăng cường thuần túy tự động, một cách tiếp cận thử và sai để tạo ra R1. Quá trình này thưởng cho mô hình khi đạt được câu trả lời đúng, thay vì dạy nó theo các ví dụ lý luận được con người lựa chọn. Công ty cho biết đây là cách mô hình của họ học được các chiến lược giống như lý luận của riêng mình, chẳng hạn như cách xác minh công việc của mình mà không cần tuân theo các chiến thuật do con người quy định.

    Để tăng hiệu quả, mô hình cũng tự chấm điểm các nỗ lực của mình bằng cách sử dụng ước tính, thay vì sử dụng một thuật toán riêng biệt để thực hiện việc này - một kỹ thuật được gọi là tối ưu hóa chính sách tương đối nhóm.

    Huan Sun, nhà nghiên cứu AI tại Đại học Bang Ohio, nhận định rằng mô hình này đã có ảnh hưởng khá lớn trong số các nhà nghiên cứu AI. Ông cho rằng gần như tất cả các nghiên cứu năm 2025 về học tăng cường trong các mô hình ngôn ngữ lớn đều có thể đã được truyền cảm hứng từ R1.

    Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ- Ảnh 2.

    Lewis Tunstall, kỹ sư học máy tại Hugging Face và là người đã thẩm định bài báo trên Nature, nhận xét rằng đây là một tiền lệ rất đáng hoan nghênh. Ông cho rằng nếu không có chuẩn mực chia sẻ phần lớn quy trình này một cách công khai, sẽ trở nên rất khó khăn để đánh giá liệu các hệ thống này có đặt ra rủi ro hay không.

    Các báo cáo truyền thông vào tháng 1 từng gợi ý rằng các nhà nghiên cứu tại OpenAI - công ty có trụ sở tại San Francisco đã tạo ra ChatGPT và loạt mô hình lý luận 'o' - cho rằng DeepSeek đã sử dụng đầu ra từ các mô hình OpenAI để đào tạo R1. Tuy nhiên, trong các trao đổi với các thẩm định viên, các nhà nghiên cứu của DeepSeek đã khẳng định rằng R1 không học bằng cách sao chép các ví dụ lý luận được tạo ra bởi các mô hình OpenAI.

    Họ thừa nhận rằng, giống như hầu hết các mô hình ngôn ngữ lớn khác, mô hình cơ sở của R1 được đào tạo trên web, vì vậy nó sẽ đã tiếp thu bất kỳ nội dung do AI tạo ra nào đã có trên Internet. Tuy nhiên, Sun cho rằng lời bác bỏ này có tính thuyết phục như những gì chúng ta có thể thấy trong bất kỳ ấn phẩm nào.

    Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ- Ảnh 3.

    Tunstall bổ sung rằng mặc dù ông không thể chắc chắn 100% rằng R1 không được đào tạo trên các ví dụ của OpenAI, nhưng các nỗ lực tái tạo bởi các phòng thí nghiệm khác cho thấy công thức lý luận của DeepSeek có lẽ đủ tốt để không cần làm điều này. Ông tin rằng bằng chứng hiện tại khá rõ ràng rằng người ta có thể đạt được hiệu suất rất cao chỉ bằng cách sử dụng học tăng cường thuần túy.

    Đối với các nhà nghiên cứu, R1 vẫn rất có sức cạnh tranh. Trong một thử thách hoàn thành các tác vụ khoa học như phân tích và trực quan hóa dữ liệu được gọi là ScienceAgentBench, Sun và các đồng nghiệp phát hiện rằng mặc dù R1 không đứng đầu về độ chính xác, nhưng nó là một trong những mô hình tốt nhất về mặt cân bằng khả năng với chi phí.

    Các nhà nghiên cứu khác hiện đang cố gắng áp dụng các phương pháp được sử dụng để tạo ra R1 nhằm cải thiện khả năng giống như lý luận của các mô hình ngôn ngữ lớn hiện có, cũng như mở rộng chúng sang các lĩnh vực ngoài toán học và lập trình. Theo cách đó, Tunstall cho rằng R1 đã "khởi động một cuộc cách mạng" trong lĩnh vực trí tuệ nhân tạo.

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ