Tại sao 'chưng cất' đang trở thành từ đáng sợ nhất với các công ty AI tiên phong?

    Anh Việt,  

    Dù chưng cất là một kỹ thuật đã được ứng dụng rộng rãi, nhưng việc DeepSeek tận dụng phương pháp này để phát triển mô hình AI của họ đã gây tranh cãi

    Trong cuộc đua phát triển trí tuệ nhân tạo, các công ty tiên phong như OpenAI, Google, Meta hay Anthropic đã đầu tư hàng tỷ USD để xây dựng những mô hình ngôn ngữ lớn với quy mô khổng lồ, tin rằng đó là con đường duy nhất để duy trì vị thế dẫn đầu. Tuy nhiên, sự xuất hiện của những đối thủ mới, đặc biệt là DeepSeek, đang đặt ra một câu hỏi quan trọng: liệu những khoản đầu tư khổng lồ đó có thực sự tạo ra lợi thế lâu dài, hay chỉ là bàn đạp cho những công ty đi sau tận dụng?

    Phương pháp "chưng cất" (distillation) chính là yếu tố thay đổi cục diện. Đây là kỹ thuật giúp các mô hình nhỏ hơn có thể học hỏi từ các mô hình lớn mà không cần trải qua quá trình đào tạo từ đầu trên dữ liệu thô. Thay vì mất hàng tháng và tiêu tốn hàng chục triệu USD để phát triển một mô hình AI, một công ty mới có thể sử dụng đầu ra từ các mô hình đã có để huấn luyện một phiên bản nhỏ gọn hơn, đạt hiệu suất tương đương với chi phí thấp hơn nhiều.

    Tại sao 'chưng cất' đang trở thành từ đáng sợ nhất với các công ty AI tiên phong?- Ảnh 1.

    Khái niệm chưng cất trong AI có thể hiểu đơn giản là sự "chuyển giao kiến thức" từ một mô hình lớn (giáo viên) sang một mô hình nhỏ hơn (học sinh). Microsoft đã mô tả kỹ thuật này như một phương pháp giúp các mô hình nhỏ duy trì chất lượng cao của các mô hình lớn nhưng với chi phí suy luận thấp hơn đáng kể. Nhờ đó, AI có thể vận hành hiệu quả trên các thiết bị nhỏ gọn hoặc trong môi trường có tài nguyên hạn chế.

    Sự quan tâm đến chưng cất không chỉ dừng lại ở lĩnh vực xử lý ngôn ngữ tự nhiên mà còn lan rộng sang các ứng dụng khác, đặc biệt là xe tự lái. Các nhà nghiên cứu đã sử dụng chưng cất để chuyển giao khả năng nhận diện hình ảnh từ những mô hình phức tạp sang các hệ thống AI nhẹ hơn, tối ưu hóa cho việc xử lý dữ liệu theo thời gian thực mà vẫn đảm bảo hiệu suất cao. Điều này giúp cải thiện khả năng phát hiện vật thể, hợp nhất dữ liệu cảm biến và ra quyết định một cách nhanh chóng và tiết kiệm năng lượng.

    Căng thẳng giữa OpenAI và DeepSeek

    Dù chưng cất là một kỹ thuật đã được ứng dụng rộng rãi, nhưng việc DeepSeek tận dụng phương pháp này để phát triển mô hình AI của họ đã gây tranh cãi. Ngày 29/1, OpenAI tuyên bố đã phát hiện dấu hiệu cho thấy DeepSeek có thể đã sử dụng kỹ thuật chưng cất để học từ mô hình của họ, điều có thể vi phạm điều khoản dịch vụ. Microsoft, đối tác lớn của OpenAI, cũng đã điều tra và chặn các tài khoản được cho là của DeepSeek do nghi ngờ khai thác API của OpenAI để thu thập dữ liệu.

    David Sacks, cố vấn về AI và tiền điện tử của Tổng thống Mỹ, cho biết "có bằng chứng đáng kể" về việc DeepSeek sử dụng chưng cất theo cách có thể gây tổn hại đến các công ty AI hàng đầu của Mỹ. Ông cũng nhấn mạnh rằng trong thời gian tới, các công ty AI lớn sẽ tìm cách ngăn chặn chưng cất để hạn chế sự phát triển của các mô hình AI "copycat". Đây không chỉ là một vấn đề cạnh tranh thương mại mà còn liên quan đến cuộc đua địa chính trị về quyền kiểm soát công nghệ AI.

    "Chưng cất" có thể làm lung lay thế độc quyền?

    Sự phát triển nhanh chóng của DeepSeek đã buộc các nhà lãnh đạo AI tại Thung lũng Silicon phải đánh giá lại chiến lược kinh doanh của họ. Mike Volpi, một nhà đầu tư công nghệ kỳ cựu, đặt câu hỏi: "Liệu có hiệu quả kinh tế khi đi đầu trong lĩnh vực với chi phí cao gấp 8 lần so với những công ty đang theo sau một cách nhanh chóng?"

    Sam Altman, CEO OpenAI, cũng thừa nhận trên X rằng mô hình của DeepSeek rất "ấn tượng, đặc biệt là về mức giá," nhưng vẫn khẳng định OpenAI sẽ tiếp tục con đường nghiên cứu của riêng mình.

    Yann LeCun, Giám đốc AI của Meta, thì cho rằng có sự hiểu lầm lớn khi so sánh chi phí phát triển AI của các công ty Mỹ với DeepSeek. Ông chỉ ra rằng phần lớn số tiền đầu tư của OpenAI, Google hay Meta không dành cho việc đào tạo mô hình, mà là để vận hành và duy trì hiệu suất của hệ thống. Trong khi đó, CEO Anthropic Dario Amodei cho rằng những gì DeepSeek làm không phải là một đột phá mang tính cách mạng, mà chỉ đơn giản là một bước đi hợp lý trong xu hướng giảm chi phí AI đang diễn ra.

    Những thay đổi này có thể dẫn đến một cuộc tái cấu trúc toàn bộ ngành AI, khi các mô hình lớn không còn là điều kiện bắt buộc để dẫn đầu, mà thay vào đó, khả năng tối ưu hóa và khai thác kiến thức từ các mô hình đã có sẵn sẽ quyết định ai là người chiến thắng.

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ