Sứ mệnh 20 năm dạy trí tuệ nhân tạo đánh bại con người trong poker

Vào tháng Giêng vừa rồi, bốn poker-thủ chuyên nghiệp – bốn người chơi giỏi nhất thế giới đã tụ họp tại Rivers Casino, Pittsburgh để tranh tài và sau cuộc thi ấy, có lẽ họ có cảm thấy đôi chút xấu hổ với danh tiếng của mình.

Buổi sáng hôm ấy, họ xuất hiện tại cửa casino lúc 11 giờ, ăn mặc đơn giản với một chiếc quần nỉ sweatpants và trên chân một đôi giày sneaker thời thượng. Bước vào trong, họ kéo ghế xuống ngồi trước màn hình máy tính, sẵn sàng cho một lượt chơi thường là sẽ kéo dài cho tới 10 giờ tối. Suốt một ngày hôm đó, những cốc cà phê uống liền, những vỏ chai nước khoáng, những vỏ hộp đồ ăn nhanh vương vãi đầy dưới chân họ.

Sòng bạc Rivers Casino.

Mỗi một lần bất kì ai trong số bốn người họ thực hiện một nước bài, hành động ấy được chuyển về một server máy tính nằm cách casino khoảng 8 km, đặt ở Đại học Carnegie Mellon. Từ đó, tín hiệu lại chạy tiếp một quãng đường 19 km nữa tới đối thủ của những nhà vô địch thế giới kia – một phần mềm máy tính có tên Libratus, đặt tại Trung tâm Siêu Máy tính Pittsburgh tại Monroeville.

Libratus, dù chỉ là MỘT phần mềm, nhưng nó lại lên và chơi tới TÁM ván bài một lúc. Nó chơi khá từ tốn, và có lẽ quá từ tốn để khiến một trong bốn đối thủ của nó, anh Jason Les bực mình. “Chính nó khiến cho ngày cứ kéo dài thêm ra”, anh Les nói. “Đáng lẽ ra việc chờ đợi không nên gây ảnh hưởng nặng nế đến vậy tới tôi, nhưng đôi lúc lúc bạn buộc phải thốt lên rằng ‘Ok, chờ xong chưa đây?’”.

Hiển nhiên là Libratus dù nghĩ lâu nhưng chẳng thấy mệt nên chẳng phải nghỉ. Bên cạnh thứ “sức khỏe dồi dào” này, nó còn khác con người ở một số điểm khác nữa. Người ta thì thường nghĩ lâu hơn mỗi khi vấn đề tiền bạc được đề cập tới. Còn máy tính thì thường chỉ chơi chậm lúc đặt tiền nhỏ, đó là do nó phải lướt qua rất rất nhiều các kết quả có thể xảy ra khi vẫn còn nhiều chip ở trong tay.

Libratus cũng thường đặt một số tiền lớn bất thường và đột ngột, vi phạm quy chuẩn thông thường của poker bằng việc ném một số tiền nhiều bất thường và vào toàn những lúc kì lạ.

Theo như người chơi giải thích, thì hành vi như vậy sẽ rất gây khó chịu, liều lĩnh và về dài hạn, cách thức ném tiền như vậy sẽ rất tốn kém. Nhưng với Libratus, khả năng chính của nó đó là chơi poker giỏi tới một mức độ “không giống người”. Khi mà giải đấu dài 20 ngày tại Rivers kết thúc, phe người đã thua tổng cộng 1,8 triệu USD (họ không phải xòe tiền mặt ngay tại đó, những con số trên là một cách theo dõi điểm trong poker).

Hai nhà khoa học máy tính, cha đẻ của Libratus - anh Tuomas Sandholm và anh Noam Brown đều đến từ Đại học Carnegie Mellon, đã tổ chức ăn mừng sự kiện lần đầu tiên máy tính đã hạ bệ được những tay chơi poker giỏi nhất thế giới ở trò Texas hold’em nổi tiếng, trò poker nổi nhất thế giới.

Những trò chơi tính toán và sử dụng trí tuệ nhiều luôn được các chuyên gia trí tuệ nhân tạo sử dụng làm thước đo, làm bài thử cho khả năng của những đứa con tinh thần của mình. Hiện tại, máy móc đã vượt mặt chúng ta trong trò cờ vua, cờ checker, cờ thỏ cáo và cờ vây.

Poker là một thứ thử thách khá khó nhằn với máy tính bởi lẽ yếu tố cơ hội, may mắn và ngẫu nhiên là rất cao trong trò chơi này. Bên cạnh đó người chơi không thể biết được đối thủ mình đang có thể cầm lá bài nào, vì thế trò chơi này không có một chỗ dựa vững chắc để khai thác thông tin và đó chính là điểm mà trí thông minh của con người phát huy tác dụng – ví dụ như việc lừa đối thủ hay cảm nhận xem đối thủ có đang lừa mình không. Đó là điểm lợi của con người và là điểm yếu của máy tính.

“Trò hold’em không giới hạn là thứ trò chơi thường thấy ở các giải đấu, và người ta đề cao nó giống như một loại nghệ thuật chứ không phải là một thứ khoa học khô khan”, Adam Kucharski, tác giả cuốn Kèo Đặt Cược Hoàn Hảo: Cách Thức Mà Khoa Học và Toán Học Loại Bỏ May Mắn Khỏi Cờ Bạc (The Perfect Bet: How Science and Math Are Taking the Luck Out of Gambling) nói. “Đã có ý kiến cho rằng trò poker sẽ vẫn còn an toàn tránh né khỏi tay những cỗ máy thông minh kia”.

Nhưng rõ ràng là cái ý tưởng ấy không đứng vững được nữa. Cũng hồi đầu tháng Giêng này, các nhà khoa học tại Đại học Alberta cho ra mắt một bản báo cáo dựa trên những kết quả thi đấu của một hệ thống AI mà họ tạo ra. Trí tuệ nhân tạo mang tên DeepStack này đã đánh bại 11 người chơi poker chuyên nghiệp khác.

Liệu DeepStack có thể đả bại được Libratus không thì còn phải tranh cãi nhiều. Anh Sandhold nói rằng 4 nhà vô địch thế giới đối đầu với Libratus giỏi hơn hẳn 11 người trong thử nghiệm kia (đẳng cấp đứng đầu thế giới cơ mà!). Michael Bowling, trưởng bộ phận máy tính tại Đại học Alberta, cũng thừa nhận điều này. Nhưng câu hỏi mà nhiều người đặt ra đó là liệu con người có còn giữ được phong độ cũng như độ tỉnh táo khi mà đã chơi poker liên tục suốt cả tháng không.

Cả hai nhà nghiên cứu đều đồng ý rằng trí tuệ nhân tạo chơi poker đều đã vượt qua được một ranh giới đáng kể nhưng đối với họ, bước tiến này cũng không liên quan nhiều đến poker cho lắm. Trò poker chỉ là một cách họ tìm ra những người chung chí hướng trong quá trình phát triển trí tuệ nhân tạo của mình, và những thành tựu họ đạt được hôm nay có thể áp dụng vào những lĩnh vực như bảo mật mạng tương lai chẳng hạn.

Poker là dấu mốc mà cộng đồng đã đặt ra, nhưng những thuật toán được sử dụng này không dành cho poker”, Sandholm nói. “Chỉ là chúng đều có cùng mục tiêu mà thôi”.

DeepStack và Libratus đều chơi một phiên bản khá kì lạ của poker. Những chiếc máy tính này đối mặt với một địch thủ duy nhất. Số lượng chip mà mỗi người chơi nắm giữ đều được đặt lại sau mỗi một ván bàn, yếu tố này đã loại bỏ được trò chơi cân não mà người chơi sở hữu nhiều chip hơn áp đặt lên người chơi có ít chip hơn, những áp lực tâm lý đã buộc những người đang ở thế thua phải đặt cược những món lớn.

Eric Hollreiser, người phát ngôn của PokerStars – nền tảng chơi poker hàng đầu thế giới, nói rằng điều này giới hạn mọi yếu tố nguy hiểm mà AI có thể gây ra với ngành công nghiệp poker này.

Có những thử nghiệm khác diễn ra trong một môi trường không bị kiểm soát nghiêm ngặt như thế này. Những con robot chơi poker đã bắt đầu “sự nghiệp cờ bạc” kể từ giây phút đầu tiên chúng được lắp ráp trong phòng thí nghiệm. Chúng khởi đầu với nhưng trò đơn giản và vẫn luôn được cho là không có kĩ năng chơi. Nhưng dần dần, những con robot này đang lan tỏa tới những cuộc chơi cấp cao hơn, theo lời Chris Grove, một nhà phân tích của ngành công nghiệp cờ bạc và là chủ biên của Online Poker Report. “Nếu như bạn là một người vận hành một nền tảng poker trực tuyến, đây có lẽ là mối lo hàng đầu của bạn, có lẽ đó là một mối lo lan tỏa rất rộng”, anh bổ sung.

Hiển nhiên là những người yêu thích bộ môn cờ bạc này lo lắng rằng những cỗ máy thông minh có thể đánh sập được những trò cờ bạc qua Internet, bởi lẽ họ lo lắng rằng những con robot ấy sẽ trở nên quá thông minh và sẽ loại họ ra khỏi cuộc chơi này”, anh Sandholm nói. “Điều đó có thể xảy ra, nhưng đó không phải là thứ mà tôi quan tâm”.

5 năm qua, anh Noam Brown đã bỏ ra rất nhiều thời gian và công sức để tạo ra một cỗ máy hóa giải được trò poker.

Trong tiếng lóng của những người chơi poker, thì một chương trình máy tính có thể chơi được hộ con người được gọi là một “cỗ máy trong mơ – dream machine”. Những người tham gia các forum poker thường xuyên trao đổi với nhau cách phát hiện ra đâu là lối chơi mà một con robot có thể thực hiện, hoặc thậm chí trao đổi những câu chuyện về việc làm thế nào mà họ đã tạo ra một con robot có khả năng chơi hộ ấy.

Nền tảng PokerStars, được sử hữu bởi công ty trò chơi Amaya của Canada, có hẳn một đội ngũ 70 người được lập ra để đối đầu với vấn đề nan giải này. Nhân viên thuộc đội ngũ này có nhiệm vụ gọi cho người chơi, yêu cầu họ mô tả chiến thuật mà họ sử dụng với những lần lên bài riêng biệt. Họ cũng thường xuyên gửi email cho người chơi, yêu cầu họ phải gửi về một đoạn video quay 360 độ xung quanh mình rồi sau đó tiếp tục chơi một tiếng đầu tiên với tay và bàn phím đều đặt ở chỗ có thể dễ dàng quan sát.

Robot không có những kĩ năng tốt đến như vậy để mà người vận hành chúng có thể kiếm được lợi nhuận và hiển nhiên, chúng cũng chẳng gây nguy hiểm tới ngành công nghiệp đến mức độ đó để mà lo lắng. Một chương trình thông minh thì có thể đánh bại được một người chơi poker hạng xoàng, và chỉ khi đó thì những người vận hành chương trình đó mới mơ đến việc kiếm tiến từ nó thôi.

Darse Billings, trưởng ban chiến thuật poker tại Gamesys – một công ty trò chơi trực tuyến có trụ sở tại Anh, nói rằng những cỗ máy trong mơ và những trí tuệ nhân tạo mang tính học thuật sử dụng những kĩ thuật khác nhau để giải quyết những vấn đề khác nhau. Anh nói rằng việc đánh bại những người chơi yếu kém không chỉ là một “phiên bản đơn giản hơn” của việc hạ bệ một người chơi poker lão luyện. Đó là hai vấn đề hoàn toàn khác nhau.

Hơn bất kì ai khác, anh Billings hiểu cả hai thế giới poker ấy vận hành như thế nào. Anh đã bỏ thời gian nghiên cứu poker khi đang học lấy bằng thạc sĩ ngành khoa học máy tính hồi năm 1990, sau này anh cũng đã trở thành một người chơi poker chuyên nghiệp để kiếm tiền trả học phí cho mình. Nhiều năm sau, anh quay lại trường để tham gia nghiên cứu với Jonathan Schaeffer, một nhà khoa học máy tính tại Đại học Alberta, một người có khả năng viết ra một phần mềm chơi được cờ checker một cách hoàn hảo. Lúc ấy, Billings đã thuyết phục Schaeffer rằng sau khi thành công với checker, anh nên tập trung sức lực nghiên cứu vào poker.

Đối với trò checker, Schaeffer đã sử dụng một phương pháp tính toán để tìm ra được bước đi hay nhất trong bất kì trường hợp nào, mà không cần nghĩ tới những sự kiện đã diễn ra trước đó. Nhưng đó lại là một chiến thuật không phù hợp với poker – trò chơi mà mỗi nước bài lại là một vấn đề độc lập, mỗi quân bài lại mang trong mình một chút may mắn và không ai có được một hệ thống thông tin hoàn hảo để suy đoán cả. Đây là đòi hỏi về cách thức giải quyết một giả thuyết trong các trò chơi mang tên trạng thái cân bằng Nash – một cách chơi những trò chơi gồm có hai người để đảm bảo rằng mình không thể thua được, dù đối thủ có làm gì đi nữa.

Cân bằng Nash không chỉ là một phương thức chơi lý tưởng. Chìa khóa để đạt được chiến thuật cân bằng trong poker là đưa ra những nước bài mạnh nhất nhưng đồng thời, phải không để đối thủ suy đoán được mình. “Khi bạn đặt tiền cho một lần lên bài đẹp, bạn cần phải nghi ngờ một chút”, Billings nói.

Núi cao còn có núi cao hơn, bài đẹp nhưng vẫn có thể có bài đẹp hơn.

Để tham gia thử nghiệm, đội ngũ đã phát triển ra một loại trí tuệ nhân tạo thận trọng mang tên Mr. Pink và một hệ thống có suy nghĩ rất hung hăng có tên Agent Orange. Chúng thực sự không thông minh đến thế, nhưng không có cách diễn đạt nào khác hơn là “thận trọng” và “có suy nghĩ rất hung hăng” được.

Việc cố gắng đạt được trạng thái cân bằng kể trên đã thu hút nhà nghiên cứu Bowling từ Đại học Alberta, một chuyên gia về giả thuyết trò chơi, để tham gia chơi poker vào năm 2003. Anh Sandholm, một thời đã nghiên cứu kĩ những luận điểm của Bowling khi còn theo học tại Đại học Carnegie Mellon, cũng đã có một cách tiếp cận vấn đề tương tự. Cả Sandholm và Bowling đã cùng tham gia Cuộc thi Poker cho Máy tính Hàng năm được tổ chức năm 2006, đưa những hệ thống của mình lên đấu trí với những người chơi hàng đầu thế giới.

Cả hai chương trình đều có những bước tiến đột phá trong những năm gần đây. Hồi tháng Giêng năm 2015, đội ngũ nghiên cứu của Bowling đã cho xuất bản một kết quả nghiên cứu giải thích cách thức họ giải quyết trò hold’em giới hạn, một thể loại poker cho hai người đơn giản hơn hold’em không giới hạn.

Những hình ảnh quen thuộc của trò poker: chip và những quân bài đen đỏ.

Anh Sandholm và Brown - là một sinh viên có bằng thạc sĩ đã cùng nghiên cứu trí tuệ nhân tạo về poker trong 5 năm trở lại đây, đã tổ chức cuộc thi “Brains vs. AI”, một cuộc thi poker tổ chức tại Rivers Casino vài tháng sau đó. Hệ thống lần này của họ mang tên Claudico đã thua 732.000 USD, sau 80.000 lượt bài với 4 người chơi chuyên nghiệp khác. Tuy thua nhưng Sandholm tự tin nói rằng trận đầu khá là cân sức và đủ cân để gọi rằng đây là một ván bài hòa.

Sandholm và Brown đều khẳng định rằng AI của họ đã tiến bộ trong nhiều lĩnh vực nhất định kể từ lần thi đấu đó. Claudico chơi tốt ở giai đoạn đầu, nhưng hay gặp sai lầm khi chuẩn bị ra những nước bài quyết định. Chúng thường gặp khó khăn khi tính toán tỉ lệ của ván bài khi dựa trên những lá bài nào đã được bỏ đi khỏi bộ bài. Libratus sau này đã khắc phục được điểm yếu ấy.

Tất cả những chi tiết làm nên thành công của Libratus sẽ được hé lộ khi mà những người tạo ra chúng đăng tải một bản báo cáo chi tiết về hệ thống này cho toàn bộ cộng đồng được biết. Những thông tin ấy thường sẽ được chọn lọc để đưa vào thế giới poker thực theo nhiều cách khác nhau. Cuộc thi Poker cho Máy tính Hàng năm đã cho phép Libratus tham dự giải của mình.

Cảnh những nhà vô địch poker đương đầu với Libratus qua màn hình máy tính.

Darse Billings đã tham gia ngành công nghiệp poker từ năm 2008. Anh là một trong số ít những người làm vậy sau khi rời chương trình nghiên cứu của Đại học Alberta. Đa số những người khác được những công ty phát triển nền tảng game tuyển dụng. Trong số những người tài năng đó có Richard Gibson, người đã tự phát triển một công ty riêng có tên Robot Shark Gaming, một công ty phát triển những chương trình trí tuệ nhân tạo để học tập và để chơi game chiến thuật, bên cạnh đó anh còn có một công ty thể thao ảo mang tên SportsBid.

Hồi năm 2013, khi mà Gibson đang hoàn thiện chương trình thạc sĩ của mình, một nhóm người chơi poker chuyên nghiệp tìm tới anh với mong muốn mua một phần mềm trí tuệ nhân tạo chơi poker để họ có thể tập luyện. Lúc ấy Gibson chỉ được cho biết tên của một người trong nhóm đó, anh chưa từng gặp ai trong đó mà cũng không chắc rằng có bao nhiêu người trong nhóm giấu mặt ấy. “Mặc dù họ không sử dụng chương trình của tôi để đánh bạc trực tuyến, đó vẫn có thể coi là một vết nhơ trong sự nghiệp”, anh nói.

Gibson đã phát triển một số phần mềm và nói rằng anh thiết kế những phần mềm ấy để biểu diễn sự hiệu quả của nhiều phần mềm với nhiều chiến thuật khác nhau. Vào thời điểm lời to nhất, anh đã thu về được khoảng 100.000 USD chỉ riêng với dự án ấy, và nhận được thêm khoảng 20.000 cho tới 30.000 USD nữa cho những khoản liên quan tới hệ thống máy tính có thể chạy được phần mềm kia.

Cao thủ poker Daniel McAulay đối mặt với Libratus.

Những chuyên gia poker giấu tên không phải là những khách hàng duy nhất tìm tới Gibson. Trong một thương vụ, anh nói rằng đã có người trả anh vài chục ngàn USD để dành 6 tháng phát triển một hệ thống AI đánh poker. Anh không hỏi về cách thức sử dụng của nó – vì thực sự anh cũng không muốn biết – nhưng thiết kế ấy có một điểm rất rõ ràng. “Vị khách yêu cầu một phần mềm riêng biệt để họ có thể cài đặt lên laptop của mình”, anh nói. “Tôi nghĩ rằng họ đã cố gắng chơi poker trực tuyến bằng phần mềm ấy”.

Quay trở lại cái thời điểm mà Libratus thành công với poker. Sau mỗi ngày cày cuốc vất vả tại Rivers, đến tối, Les và những người chơi poker tên tuổi khác cố gắng phân tích dữ liệu thu thập được trong ngày để tìm ra điểm yếu của Libratus. Sáng thức dậy, họ tự tin rằng mình đã có thêm những tuyệt chiêu mới để hạ bệ hệ thống máy tính kia. “Có những điểm yếu mà chúng tôi tìm ra được chỉ sau vài ngày đầu tiên chạm trán với nó”, Les nói. “ Chúng tôi cứ tấn công vào điểm yếu đấy, nhưng theo thời gian những điểm ấy dần biến mất ”.

Jason Les, một trong những tay chơi poker hàng đầu thế giới.

Libratus cũng có những sửa đổi của riêng nó. Trong ngày, chương trình chia sức mạnh tính toán thành hai phần: một để chơi bài và một là để “tiếp tục cải tiến chiến thuật chơi” của mình, Sandholm mô tả hành động ấy như vậy. Đến đêm, chương trình tập trung hoàn toàn sức mạnh vào nghiên cứu chiến thuật, sử dụng toàn bộ 600 node của mình. Từng đó sức mạnh là tương ứng với 3.330 máy tính Macbook tân tiến nhất đang làm việc hết công suất.

Trong poker hay cũng như trong các trò chơi khác mà AI đã chinh phục được mức cao nhất, máy tính đã tạo ra được những chiến thuật đối phó lại được với người chơi. Anh Les nói rằng anh đã cố tìm cách để thích ứng được với hành vi đặt cược kì quái của Libratus, nhưng thực sự là điều đó rất khó. “Đơn giản là chúng tôi không có khả năng tinh thần để làm được điều đó”, anh nói.

Nếu như con người đã tới cái ngưỡng “máy tính quá giỏi so với họ”, thì những phòng thí nghiệm như của Sandholm và Bowling đang vận hành lại gặp vấn đề ngược lại. Đương đầu với những chuyên gia poker là một chuyện, nhưng không có một ngã rẽ rõ ràng nào để khiến Libratus hay DeepStack có thể tự tin đối mặt được với một nhóm những người chơi kém. Đó là bởi chiến thuật cân bằng mà trí tuệ nhân tạo sử dụng sẽ không thể áp dụng vào một quy mô nhiều hơn một đối thủ được. Lúc ấy, mục tiêu của máy móc không phải là chơi hoàn hảo mà là xác nhận ra được những yếu điểm trong cách chơi của đối thủ.

Vài năm trước, Bowling đã tiến hành thử nghiệm với ba hệ thống AI, cho chúng chơi với nhau. Hai con được lập trình để có một lối chơi hoàn hảo, còn một con được lập trình để đặt cược một cách vô tội vạ. Cuối cùng, hệ thống kém nhất mất có chút tiền. Một trong hai con “gần hoàn hảo” kia thắng đẫm, còn con còn lại thì thua chẳng còn đến cái áo che thân.

Đó mới là phần khó. Làm sao mà bạn có thể lập luận khi biết rằng đối thủ của mình không chơi tốt cho lắm”, Bowling nói. “Bạn cần phải được chuẩn bị sẵn sàng cho việc đó”.

Bài viết: Thành

Photo: Internet

Thiết kế: Tom, Hoàng Nguyễn, V.

Theo Tri Thức Trẻ