Đến game thủ chuyên nghiệp cũng sợ? AI của Microsoft đạt điểm tuyệt đối 999.900 trong trò Ms. Pac-Man

Tuấn Hưng,

Rất nhiều game thủ đã cố gắng đạt được điểm cao trong trò Ms. Pac-Man nhưng chỉ dừng lại ở con số 266.330 trên phiên bản Atari 2600. Con số tối đa 999.900 mới chỉ đạt được nhờ cheat mà thôi.

Sau quãng thời gian dài dằng dặc, lên tới 36 năm ròng, thì cuối cùng điểm số hoàn hảo của trò chơi huyền thoại Ms Pac-Mac đã xô đổ, nhưng đáng buồn là không phải do con người lập nên kỷ lục này. Maluuba – một đội ngũ phát triển công nghệ deep learning đã được Microsoft mua lại hồi tháng 1 vừa qua – đã chế tạo ra một hệ thống trí tuệ nhân tạo có khả năng học cách đạt được điểm số cao nhất của MS Pac-Man, 999.000 trên hệ máy Atari phiên bản 2600, bằng cách sử dụng công nghệ reinforcement learning cùng phương thức chia để trị (divide-and-conquer).

Các nhà khoa học máy tính đã ghi chép lại thiên hướng sử dụng trò chơi điện tử để thử nghiệm trí thông minh của machine learning bởi chúng tái hiện lại sự phức tạp của thế giới thật ở trong một môi trường được kiểm soát trong những game chiến thuật như cờ tướng chẳng hạn. Hồi năm 2015, AI DeepMind của Google đã có thể phá đảo 49 tựa game trên Atari bằng cách sử dụng phương thức reinforcement learning, nhờ đó mà nó cung cấp cho ta phản hồi tích cực và tiêu cực mỗi khi hệ thống trí tuệ nhân tạo này cố gắng giải quyết một câu đố hoặc một vấn đề nào đó.

Mặc dù AI đã chinh phục được một số lượng không nhỏ những tựa game cổ điển, thế nhưng Ms. Pac-Man lại vô cùng khó nhằn bởi bản chất “thiên biến vạn hóa” rất khó lường của trò chơi. Và hóa ra con người cũng chẳng thể nào “phá đảo” được nó. Rất nhiều game thủ đã cố gắng đạt được điểm cao trong trò Ms. Pac-Man nhưng chỉ dừng lại ở con số 266.330 trên phiên bản Atari 2600. Con số tối đa 999.900 mới chỉ đạt được nhờ cheat mà thôi.

Maluuba đã có thể tận dụng khả năng của trí tuệ nhân tạo để đánh bại trò chơi, nhờ việc chia nhỏ tựa game này thành những tác vụ nhỏ kích cỡ chỉ vài bite và giao cho 150 agent (nhân tố xử lý) khác nhau thực hiện. Đội ngũ các nhà nghiên cứu này sau đó sẽ dạy AI sử dụng thứ mà họ là Kiến trúc Phần thưởng lai (Hybrid Reward Architecture) - nó là sự kết hợp giữa học tập tăng cường (reinforcement learning) với phương pháp chia để trị. Sau đó, Maluuba thiết kế ra một nhân tố xử lý cao nhất với nhiệm vụ thu lấy đề nghị từ tất cả những nhân tố bên dưới nhằm đưa ra một quyết định cho từng bước đi trong Pac Man.

Kết quả thu được sẽ là tốt nhất khi mỗi nhân tố xử lý “hành động một cách ích kỷ nhất” và nhân tố quản lý sẽ tập trung vào việc chọn ra cái gì là tốt nhất cho cả nhóm, nghĩa là không chỉ quan tâm tới việc có bao nhiêu nhân tố muốn làm theo một giải pháp cụ thể nào đó mà quan trọng hơn là giải pháp đó sẽ có ảnh hưởng gì tới toàn cục. (Ví dụ: Một vài nhân tố xử lý muốn tránh con ma ăn thịt bạn – quyết định này sẽ được ưu tiên hơn phần đông nhân tố muốn ăn hạt vì nó tác động đến toàn bộ quá trình chơi.)

“Sự tương tác giữa những nhân tố với nhau là rất tuyệt vời,” Harm Van Seijen, một thành viên trong nhóm nghiên cứu Maluuba, “mặc dù chúng vẫn phải hợp tác với nhau dựa trên mức độ ưu tiên của toàn bộ nhân tố khác, thế nhưng chúng đồng thời chỉ quan tâm tới một nhiệm vụ riêng biệt mà thôi. Từ đó sẽ tạo nên lợi ích cho toàn cục.”

Nhóm phát triển Maluuba cho biết phiên bản AI Hybrid Reward Architecture sẽ có nhiều ứng dụng quan trọng, thí dụ như giúp dự đoán doanh số bán hàng của một công ty hoặc hỗ trợ hiệu quả cho quá trình xử lý ngôn ngữ tự nhiên.