Elon Musk cảnh báo: AI đã dùng cạn dữ liệu Internet, đối mặt nguy cơ 'thoái hóa' vì càng đào tạo càng kém thông minh?
Musk cảnh báo rằng phương pháp này có thể gây ra những vấn đề nghiêm trọng, đặc biệt là tình trạng "ảo giác" – hiện tượng AI tạo ra thông tin sai lệch hoặc vô nghĩa.
Elon Musk, CEO của Tesla, SpaceX, và xAI, đã đưa ra một tuyên bố gây chú ý khi cho rằng các công ty trí tuệ nhân tạo (AI) đã "hút cạn" toàn bộ dữ liệu kiến thức của nhân loại để huấn luyện các mô hình AI. Ông cho biết, từ nay, các công ty sẽ phải dựa vào dữ liệu tổng hợp do chính AI tạo ra để phát triển và tinh chỉnh công nghệ.
Phát biểu trong một cuộc phỏng vấn livestream trên nền tảng mạng xã hội X, Musk cho biết: "Việc tổng hợp kiến thức của con người đã được sử dụng hết trong quá trình huấn luyện AI, và điều này đã xảy ra từ năm ngoái." Theo ông, cách duy nhất để vượt qua giới hạn này là chuyển sang sử dụng dữ liệu tổng hợp, nơi AI tự viết bài luận, tự chấm điểm và thực hiện các bước tự học.
Nguy cơ "sụp đổ mô hình"
Ý tưởng sử dụng dữ liệu tổng hợp không phải mới, khi các công ty lớn như Meta, Microsoft, Google, và OpenAI đã bắt đầu áp dụng phương pháp này để huấn luyện các mô hình AI của họ, bao gồm Llama AI, Phi-4, và ChatGPT. Tuy nhiên, Musk cảnh báo rằng phương pháp này có thể gây ra những vấn đề nghiêm trọng, đặc biệt là tình trạng "ảo giác" – hiện tượng AI tạo ra thông tin sai lệch hoặc vô nghĩa.
Theo Musk, việc sử dụng dữ liệu tổng hợp đòi hỏi khả năng phân biệt giữa câu trả lời chính xác và sai lệch, điều này khiến quá trình tự học trở nên "rất thách thức." Ông thừa nhận: "Nếu AI tự tạo ra dữ liệu và nó bị ảo giác, làm sao chúng ta biết câu trả lời đó là thật hay giả?"
Andrew Duncan, giám đốc AI tại Viện Alan Turing ở Anh, đồng tình với nhận định của Musk và chỉ ra rằng nguồn dữ liệu công khai có thể sẽ cạn kiệt hoàn toàn vào năm 2026. Duncan cảnh báo rằng việc quá phụ thuộc vào dữ liệu tổng hợp có thể dẫn đến hiện tượng "sụp đổ mô hình," nơi chất lượng đầu ra của AI ngày càng suy giảm. Ông giải thích: "Khi bạn cho một mô hình ăn dữ liệu tổng hợp, nó sẽ gặp hiện tượng giảm hiệu suất, tạo ra các kết quả thiếu sáng tạo và dễ bị thiên lệch."
Ngoài ra, Duncan cũng bày tỏ lo ngại về sự gia tăng nội dung do AI tạo ra trên internet. Những nội dung này có thể được đưa ngược vào quá trình huấn luyện, dẫn đến một vòng lặp dữ liệu chất lượng thấp và khiến AI càng thêm mất định hướng.
Vấn đề kiểm soát và chất lượng dữ liệu đã trở thành tâm điểm trong cuộc cạnh tranh AI toàn cầu. OpenAI từng thừa nhận rằng không thể tạo ra các công cụ như ChatGPT nếu không sử dụng dữ liệu có bản quyền. Điều này đã dẫn đến nhiều vụ kiện từ các ngành công nghiệp sáng tạo và xuất bản, yêu cầu bồi thường cho việc sử dụng nội dung của họ trong quá trình huấn luyện AI.
Những tuyên bố của Elon Musk đã làm nổi bật một cuộc khủng hoảng đang âm ỉ trong ngành AI: làm thế nào để duy trì sự phát triển khi tài nguyên dữ liệu truyền thống không còn đủ? Trong khi việc sử dụng dữ liệu tổng hợp có thể là giải pháp tạm thời, các chuyên gia đồng ý rằng đây không phải là con đường dài hạn nếu không có cách kiểm soát chất lượng.
NỔI BẬT TRANG CHỦ
TikTok sắp bị cấm hoàn toàn, người dùng Mỹ tràn sang một ứng dụng khác của Trung Quốc
Khi ngày TikTok Mỹ dừng hoạt động đang đến gần, một ứng dụng mạng xã hội khác của Trung Quốc lại bất ngờ vươn lên đứng đầu bảng xếp hạng.
Từng là màu đắt nhất, iPhone 16 Pro Max "Titan Sa Mạc" sụt giá thảm, trở thành màu rẻ nhất hiện nay