Chân dung Libratus - trí tuệ nhân tạo vừa đè bẹp con người trong poker dễ như trở bàn tay

Nguyễn Hải , Theo Trí Thức Trẻ
Bình luận 0

Trí tuệ nhân tạo đó có thể làm được điều này, chính là nhờ một phương pháp đào tạo AI mới, thay vì các kỹ thuật thông thường.

Trong gần ba tuần, Dong Kim chỉ ngồi tại một casino ở Pittsburgh và chơi poker với một chiếc máy. Nhưng Kim không chỉ là một người chơi poker bình thường. Và chiếc máy anh đang chơi cũng không chỉ là một chiếc máy poker bình thường.

Kim, năm nay 28 tuổi, là một trong những người chơi poker giỏi nhất trên thế giới. Trong khi đó, chiếc máy chơi poker kia, Libratus, được tạo ra bởi hai nhà nghiên cứu khoa học tại Đại học Carnegie Mellon, là một hệ thống trí tuệ nhân tạo chạy trên một siêu máy tính ở Pittsburgh. Trong 20 ngày liên tiếp, họ đã đấu trí với nhau trong Texas Hold’Em no-limit (không giới hạn), một dạng poker đặc biệt phức tạp, trong đó các chiến lược đặt cược phải giúp người chơi vượt qua hàng chục lần hạ bài.

Sau nửa thời gian cuộc đấu, Kim bắt đầu cảm thấy dường như Libratus có thể thấy được bài của mình. “Tôi không cho rằng nó gian lận.” Anh cho biết. “Chỉ là tôi nghĩ nó rất giỏi.” Trên thực tế, nó không chỉ đánh bại Kim mà còn 3 người chơi khác, những người đứng đầu thế giới – đây là lần đầu tiên một trí tuệ nhân tạo có thể làm như vậy.


Dong Kim, một trong bốn người tham gia vào cuộc đối đầu với Libratus trong những ngày qua.

Dong Kim, một trong bốn người tham gia vào cuộc đối đầu với Libratus trong những ngày qua.

Trong suốt cuộc đấu, những người tạo ra Libratus vẫn luôn ngần ngại chia sẻ về cách hệ thống này hoạt động – làm thế nào nó có thể thành công đến vậy, làm thế nào nó có thể bắt chước trực giác con người theo cách không cỗ máy nào làm được từ trước đến nay. Nhưng theo những gì các nhà nghiên cứu tiết lộ, Libratus đã đạt đến mức độ nó không chỉ là một AI đơn thuần, mà nó dựa trên ba hệ thống khác biệt nhưng làm việc cùng với nhau.

Những hệ thống bên trong của Libratus

Các AI hiện đại ngày nay được vận hành bởi không chỉ một mà nhiều công nghệ cùng lúc. Đó chính là lý do các mạng lưới học thần kinh sâu (deep neural networks) hiện đang nhận được nhiều sự chú ý: Chúng cung cấp sức mạnh cho mọi thứ, từ nhận diện hình ảnh cho đến dịch ngôn ngữ hay thậm chí tìm kiếm, những sản phẩm chủ đạo của các công ty công nghệ lớn nhất thế giới.

Không chỉ vậy, thành công của mạng lưới thần kinh nhân tạo cũng thổi một làn gió mới cho rất nhiều các kỹ thuật AI khác, nhằm giúp máy tính bắt chước hoặc thậm chí vượt qua tài năng của con người.

Tuy nhiên, Libratus lại không sử dụng mạng lưới thần kinh nhân tạo này. Nó chủ yếu dựa trên một hình thức AI khác, còn được biết đến với tên “Học tăng cường” (Reinforcement Learning), một phương pháp thử nghiệm và báo lỗi khắt khe. Về cơ bản, nó tự chơi trò chơi này với bản thân hết lần này đến lần khác.

Phương pháp tương tự cũng đã được phòng thí nghiệm Deep Mind của Google sử dụng trong việc xây dựng AlphaGo, hệ thống đã đánh bại kỳ thủ thế giới Lee Sedol vào đầu năm ngoái. Tuy nhiên, giữa hai hệ thống này có một điểm khác biệt quan trọng. AlphaGo học chơi cờ vây từ việc phân tích 30 triệu nước đi của con người, trước khi định hình nên kỹ năng của mình bằng cách tự chơi với chính nó. Ngược lại, Libratus học chơi poker hoàn toàn từ đầu.

Thông qua một thuật toán có tên gọi Counterfactual Regret Minimization (giảm thiểu tổn thất đối chứng), nó bắt đầu bằng cách chơi ngẫu nhiên, và cuối cùng, sau nhiều tháng luyện tập với hàng nghìn tỷ ván bài poker, nó đã đạt tới trình độ không chỉ thách thức người chơi giỏi nhất, mà còn chơi theo cách mà họ không thể làm được – chơi với phạm vi đặt cược rộng hơn và ngẫu nhiên hóa các lần đặt cược này, vì vậy các đối thủ sẽ khó khăn hơn trong việc đoán được những con bài mà Libratus đang cầm.

Chúng tôi cho AI một bản mô tả trò chơi. Chúng tôi không nói cho nó biết chơi như thế nào.” Noam Brown, học viên cao học tại CMU (Đại học Carmegie Mellon), người tạo ra hệ thống AI này cùng với giáo sư của mình, Tuomas Sandholm. “Sau đó nó phát triển một chiến lược hoàn toàn độc lập với cách chơi của con người, và nó có thể rất khác biệt so với cách con người chơi trò chơi này.”

Nhưng đó chỉ là giai đoạn đầu tiên. Trong trận đấu ở Pittsburgh, một hệ thống thứ hai sẽ phân tích trạng thái của trận đấu và tập trung vào các chú ý của hệ thống đầu tiên. Với sự trợ giúp từ hệ thống thứ hai này, hệ thống đầu tiên sẽ không phải chạy thử toàn bộ các kịch bản có thể mà nó khám phá ra trong quá khứ. Nó chỉ cần chạy thử qua một vài kịch bản đó. Libratus không chỉ học trước trận đấu, nó tiếp tục học ngay cả khi đang chơi.

Mặc dù cả hai hệ thống này đã quá đủ để chơi một cách hiệu quả. Nhưng Kim và những người chơi khác vẫn có thể tìm thấy các mô hình trong cách chơi của máy tính và khai thác nó. Đó là lý do vì sao Brown và Sandholm tạo ra một hệ thống thứ ba. Mỗi tối, Brown sẽ chạy một thuật toán có thể xác định các mô hình đó và loại bỏ chúng. “Nó có thể tính toán việc này qua đêm và mọi thứ sẽ sẵn sàng vào ngày hôm sau.” Anh cho biết.

Một cột mốc quan trọng đối với trí tuệ nhân tạo

Nếu bạn cảm thấy điều này có vẻ không công bằng, thì vẫn phải chấp nhận thôi, đó là cách AI hoạt động. Tuy nhiên, không chỉ AI làm như vậy. Con người cũng thường xuyên kết hợp các quá trình, tích cực cải thiện, chạy và tăng cường AI. Libratus thực sự là một cột mốc quan trọng, nó cho thấy một loại AI mới có thể đóng xuất hiện trong mọi thứ từ các giao dịch trên phố Wall cho tới an ninh mạng hay cả các phiên đấu giá và đàm phán chính trị.

Poker là một trong những trò chơi khó nhất mà AI đột phá vào, bởi vì bạn chỉ nhìn thấy một phần thông tin về trạng thái của trò chơi này.” Andrews Ng, người giúp phòng thí nghiệm AI trung tâm của Google và giờ là nhà khoa học trưởng tại Baidu. “Không có bước di chuyển tối ưu đơn lẻ nào. Thay vào đó, AI sẽ phải ngẫu nhiên hóa hành động của mình để làm các đối thủ không chắc chắn khi nó đánh lừa họ (bluff).”

Libratus đã thực hiện được điều này một cách cao nhất. Nó thực hiện ngẫu nhiên hóa cách đặt cược của mình đến mức vượt ra ngoài suy nghĩ của những người chơi giỏi nhất. Còn nếu cách đó không hiệu quả, thuật toán chạy thâu đêm của Brown sẽ lấp đầy kẽ hở đó. Một người giao dịch tài chính có thể làm việc theo cùng một cách như vậy. Điều tương tự cũng xảy ra với một nhà nghoại giao. Do vậy Libratus đang là một lời tuyên bố mạnh mẽ: một cỗ máy cũng có thể đánh lừa một con người.

Tham khảo Wired

https://www.wired.com/2017/02/libratus/

Tin cùng chuyên mục
Xem theo ngày