"9,9 với 9,11, số nào lớn hơn?" - Nhìn câu trả lời của AI xong "đứng hình"

    Minh Tiến ,  

    Mới đây, trong chương trình Singer 2024 do Đài truyền hình Hồ Nam (Trung Quốc) sản xuất, các mô hình AI đã gây bất ngờ khi gặp khó khăn trong việc giải quyết một bài toán so sánh số thập phân đơn giản.


      Sự bùng nổ của chatbot AI đã mở ra cánh cửa sáng tạo nội dung mới cho người dùng. Các chatbot này có khả năng tạo ra nhiều loại nội dung, từ âm thanh, mã code, hình ảnh, video cho đến văn bản với ngữ pháp hoàn chỉnh.

      Điều này thúc đẩy sự phát triển của hơn 200 mô hình ngôn ngữ lớn (LLM) – công nghệ nền tảng cho các dịch vụ AI tạo sinh (GenAI) như ChatGPT. LLM là các thuật toán AI học sâu có thể nhận diện, tóm tắt, dịch thuật, dự đoán và tạo nội dung bằng cách sử dụng kho dữ liệu khổng lồ.

      Mới đây, trong chương trình Singer 2024 do Đài truyền hình Hồ Nam (Trung Quốc) sản xuất, các mô hình AI đã gây bất ngờ khi gặp khó khăn trong việc giải quyết một bài toán so sánh số thập phân đơn giản.

      Điều này đã khiến cư dân mạng Trung Quốc thích thú trêu chọc. Một số người còn đề nghị thử nghiệm khả năng tính toán của các chatbot AI bằng bài toán này. Kết quả cho thấy, chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra đáp án sai. Chỉ khi người dùng áp dụng phương pháp "chuỗi suy nghĩ", hướng dẫn AI giải bài toán từng bước một, thì hai chatbot này mới có thể tự sửa lỗi và đưa ra lời xin lỗi.

      Trong khi đó, Qwen LLM của Alibaba sử dụng Python Code Interpreter để tính toán câu trả lời. Ernie Bot của Baidu mất đến 6 bước để đưa ra đáp án chính xác. Đối lập với đó, Doubao LLM của ByteDance đưa ra phản hồi trực tiếp với một ví dụ minh họa: "Nếu bạn có 9,90 USD và 9,11 USD, rõ ràng 9,90 USD là số tiền lớn hơn."

      Vấn đề "so sánh số" của các mô hình AI đã lan truyền chóng mặt sau khi nhà nghiên cứu Bill Yuchen Lin (thuộc Viện Allen) và kỹ sư Riley Goodside (thuộc công ty công nghệ Scale AI) nêu bật điểm yếu toán học cơ bản của công nghệ này trên nền tảng mạng xã hội X. Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các LLM tiên tiến như GPT của OpenAI, Claude 3.5 Sonnet và Mistral AI đều trả lời là 9,11.

      Theo ông Ngô Nghi Quân - nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang (Hàng Châu) cho biết: "LLM rất kém toán, đây là điều rất phổ biến." Ông giải thích rằng GenAI không có khả năng toán học bẩm sinh và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu được huấn luyện. Một số LLM hoạt động tốt trong các bài kiểm tra toán học có thể là do "dữ liệu", nghĩa là thuật toán đã ghi nhớ câu trả lời vì các câu hỏi tương tự đã có trong dữ liệu huấn luyện của nó.

      Ông Quân nói thêm: "Thế giới của AI được mã hóa – số, chữ, dấu câu và khoảng trắng đều được coi như nhau. Do đó, bất kỳ thay đổi nào trong lời nhắc đều có thể ảnh hưởng đáng kể đến kết quả."

      Tin cùng chuyên mục
      Xem theo ngày

      NỔI BẬT TRANG CHỦ