OpenAI của Elon Musk đánh bại Google DeepMind ở trò chơi Atari với thuật toán từ thập niên 80
Phương pháp tiếp cận của OpenAI giúp đạt mức độ thành thạo giống DeepMind trong thời gian ngắn hơn nhiều.
Lịch sử nghiên cứu AI chứng kiến không ít trường hợp thành công với những ý tưởng cũ tưởng chừng đã lỗi thời. Giờ đây, các nhà nghiên cứu thuộc dự án AI của “ông trùm” Elon Musk đã khởi động lại “neuroevolution”, một lĩnh vực được tiến hành từ những năm 1980, và đạt được kết quả đáng mừng.
Ilya Sutskever, giám đốc công ty nghiên cứu trí tuệ nhân tạo phi lợi nhuận OpenAI dẫn đầu nhóm nghiên cứu, đã khám phá ra việc sử dụng tập hợp thuật toán trong lĩnh vực này, gọi là “evolution strategies” nhằm mục đích giải quyết các vấn đề tối ưu.
Dù tên gọi như vậy, cách tiếp cận này không liên quan tới tiến hóa sinh học. Nhìn chung, nó dựa vào việc cho phép các cá thể thành công vượt qua chính những đặc điểm của chúng cho thế hệ tương lai. Nhóm nghiên cứu đã dùng những thuật toán này rồi chỉnh sửa lại để chúng làm việc tốt hơn với mạng lưới thần kinh học sâu và chạy trên các hệ thống máy tính phân phối lớn.
Để xác định tính hiệu quả, họ thiết lập nhiệm vụ cho chúng với loạt thách thức có điểm chuẩn rõ ràng được coi như tiêu chí tăng cường khả năng học tập, kỹ thuật vốn đặt nền tảng cho những thành công ấn tượng của Google DeepMind, bao gồm cả chiến thắng trước nhà vô địch cờ vây thế giới.
Một trong những thách thức này là đào tạo cho các thuật toán chơi loạt trò chơi được phát triển bởi Atari. Năm 2013, DeepMind cho biết có thể sử dụng Deep Q-Learning – sự kết hợp giữa học tăng cường và mạng nơ-ron tích chập (convolutional neural networks) để vượt qua 7 trò chơi của Atari. Cái khó là phải làm sao để dạy thuật toán kiểm soát hình ảnh người ảo trong máy vật lý.
Để làm điều này, thuật toán bắt đầu với quá trình ngẫu nhiên, ví dụ như tập hợp các cách để đạt điểm cao trong trò chơi của Atari. Sau đó, nó sẽ tạo ra vài trăm biến thể từ phương án gốc, với một số biến thể ngẫu nghiên và chúng bắt đầu thử nghiệm trên trò chơi.
Các phương án được tập hợp lại, trộn lẫn với nhau, ưu tiên gán trọng số lớn hơn cho từng “nước đi” mang lại điểm số cao. Quá trình lặp lại cho đến khi hệ thống đưa ra được giải pháp tốt nhất để vượt qua trò chơi.
Trong một giờ huấn luyện trên thử thách của Atari, thuật toán của OpenAI đã đạt được mức độ thành thạo tương tự như hệ thống của DeepMind công bố năm ngoái vốn cần cả ngày để đạt level đó. Về khả năng điều khiển nhân vật đi bộ, nó chỉ mất 10 phút so với 10 giờ theo cách tiếp cận của Google.
DeepMind là dự án nổi tiếng của ông lớn Google.
Cách làm của OpenAI không cần “truyền ngược sai số”, kỹ thuật phổ biến trong phương pháp huấn luyện mạng nơ-ron, thay vào đó sẽ so sánh kết quả cuối của của mạng lưới với yêu cầu ban đầu, sau đó cung cấp thêm thông tin trở lại để mạng lưới tối ưu hóa.
Các nhà nghiên cứu cho biết làm như vậy giúp mã code ngắn hơn và thuật toán xử lý nhanh gấp hai đến ba lần. Nó đồng thời cũng phù hợp với tình huống và thách thức có thời gian lâu hơn.
Tuy nhiên, cách tiếp cận này vẫn có một vài hạn chế. Thuật toán được so sánh dựa trên tính hiệu quả của dữ liệu, ví dụ như thực hiện lặp lại cho tới khi đạt được điểm số cần thiết. Phương pháp tiếp cận của OpenAI tỏ ra “đơn điệu” hơn so với các phương pháp học tăng cường, vốn không có kết quả đúng sai. Nhưng bù lại, OpenAI xử lý công việc song song, do đó có thể lặp lại quá trình nhanh hơn.
Dự án mà Elon Musk rót vốn vào đưa ra cách tiếp cận đầy hứa hẹn. Tuy nhiên, họ cũng gặp phải sự cạnh tranh quyết liệt từ các ông lớn công nghệ khác. Google đang thử nghiệm nhiều chiến lược khác nhau để đưa ra thuật toán nhận diện hình ảnh tốt hơn. AI sẽ còn “tiến hóa” trong thời gian tới và chúng ta hãy chờ đợi những đột phá mới có thể giúp ích cho nhân loại.
NỔI BẬT TRANG CHỦ
Google: Giải được bài toán 10 triệu tỷ tỷ năm chỉ trong 5 phút, chip lượng tử mới là bằng chứng về đa vũ trụ
Điều đáng ngạc nhiên hơn cả là nhiều người trên cộng đồng mạng thế giới lại đang đồng tình với kết luận của Google.
Gần 2025 rồi mà vẫn dùng USB để lưu công việc thì quả là lỗi thời