Trí tuệ nhân tạo AlphaStar đã đánh bại con người trong tựa game chiến thuật StarCraft vô cùng phức tạp như thế nào?

tvd,

StarCraft là tựa game chiến thuật phức tạp, với số lượng khả năng xảy ra trong game cao gấp nhiều lần cờ vua và cờ vây.

Đột phá mới: Trí tuệ nhân tạo biến tín hiệu não thành giọng nói, giúp người khiếm thanh "nói" được
Trí tuệ nhân tạo nay còn biết giấu dữ liệu để nói dối chủ nhân về công việc được giao
Trí tuệ nhân tạo phát hiện Alzheimer trong các bản chụp cắt lớp não sớm 6 năm so với chẩn đoán

Các nghiên cứu cho thấy rằng có rất nhiều người dân tại Mỹ lo sợ công việc của họ sẽ bị đe dọa thay thế bởi robot và trí tuệ nhân tạo. Từ những công việc đơn giản như giao hàng, lắp ráp trong nhà máy sản xuất, cho đến những công việc đòi hỏi kỹ năng cao như chuyên viên phân tích, kỹ sư phần mềm. Và mới đây, có một nghề đặc biệt tiếp tục bị đe dọa bởi AI, đó là game thủ chuyên nghiệp.

Trong một màn trình diễn đáng kinh ngạc để thấy AI có khả năng tiến xa đến đâu, AlphaStar - một hệ thống AI mới từ dự án DeepMind của Google - đã so tài với các game thủ chuyên nghiệp trong một tựa game chiến thuật vô cùng phức tạp là StarCraft.

DeepMind đã từng khiến cả thế giới kinh ngạc khi trí tuệ nhân tạo AlphaGo có thể đánh bại con người trong bộ môn cờ vây.

StarCraft là một trong những tựa game phức tạp nhất, yêu cầu người chơi phải đưa ra quyết định trong số hàng trăm khả năng có thể xảy ra mỗi khoảnh khắc. Nó bao gồm cả chiến lược vĩ mô, khi mà bạn cần phải đưa ra một đối sách để chiến thắng người chơi khác. Tuy nhiên cũng bao gồm cả chiến lược vi mô, nơi bạn phải liên tục đưa ra quyết định dựa trên những diễn biến và thay đổi đang xảy ra trong từng giây từng phút của một trận đấu.

Kết quả cuối cùng của màn so tài giữa AI và các game thủ StarCraft chuyên nghiệp đã khiến tất cả mọi người phải kinh ngạc. AlphaStar giành chiến thắng 10 trong tổng số 11 game trước các game thủ chuyên nghiệp. Điều đáng nói, đó là AlphaStar không giành chiến thắng bằng cách lợi dụng khả năng xử lý nhanh, và thực hiện nhiều thao tác trong một phút (APM) của hệ thống máy tính.

Trí tuệ nhân tạo và game thủ chuyên nghiệp thi đấu cùng nhau trong StarCraft.

Trên thực tế, đội ngũ DeepMind đã làm chậm khả năng xử lý và thao tác của AlphaStar xuống đến mức gần bằng với phản xạ của con người. Do đó, AlphaStar đã giành chiến thắng hoàn toàn dựa trên việc đưa ra một chiến lược hợp lý. Nó cũng phải thu thập thông tin từ đối thủ dựa trên việc thăm dò, thay đổi chiến thuật nếu thấy cần thiết, tận dụng lợi thế để áp đảo và cũng có thể đưa ra quyết định rút lui quân để bảo toàn lực lượng.

StarCraft được đánh giá là một tựa game có mức độ phức tạp cao hơn cả cờ vua. Chính vì vậy mà chiến thắng của AlphaStar không chỉ khiến các game thủ esport chuyên nghiệp phải bất ngờ, mà còn khiến cả thế giới phải suy nghĩ lại những gì mà máy tính có thể làm được. Sức mạnh của AI thực sự có thể vượt xa những gì chúng ta tưởng tượng.

Vì sao game lại rất thích hợp để phát triển trí tuệ nhân tạo?

Cách đây 3 năm, DeepMind - startup AI có trụ sở tại London được mua lại bởi Google - đã khiến cả thế giới phải kinh ngạc với AlphaGo, một mạng thần kinh được thiết kế để chơi cờ vây. AlphaGo đã giành chiến thắng trước hầu hết các kỳ thủ cờ vây hàng đầu thế giới, khiến cho những chuyên gia về cờ vây cũng phải bất ngờ.

Một năm sau đó, DeepMind tiếp tục giới thiệu AlphaZero, một hệ thống thần kinh được cải tiến từ AlphaGo để học những trò chơi trí tuệ hai người, như cờ vua, cờ vây và những trò trí tuệ có tính chiến thuật từng bước khác.

Cờ vây và cờ vua có những đặc điểm giống nhau khiến AI có thể tiếp cận một cách đơn giản. Đó là những trò chơi hai người, với toàn bộ thông tin được hiện ra trên bàn cờ (nghĩa là không có thông tin nào từ đối thủ bị ẩn đi). Trong mỗi vòng sẽ có một quyết định được đưa ra, như cờ vua sẽ là di chuyển một quân cờ, còn cờ vây sẽ là đặt thêm một quân cờ mới lên bàn.

StarCraft là tựa game chiến thuật thời gian thực vô cùng phức tạp.

Tuy nhiên những tựa game chiến thuật thời gian thực như StarCraft lại phức tạp hơn rất nhiều. Đầu tiên đó chính là thông tin không đầy đủ, bạn sẽ không thể biết chính xác đối thủ của mình đang làm gì và sẽ làm gì tiếp theo. Thứ hai là bạn phải đưa ra nhiều quyết định tại cùng một thời điểm, sẽ có nhiều tình huống bất ngờ xảy ra trong trận đấu cần được đưa ra quyết định chính xác. Trò chơi sẽ thay đổi từng giây từng phút, theo nhiều kịch bản và ngã rẻ khác nhau, không giống với những chiến lược đã được định sẵn như trong cờ vua và cờ vây.

"StarCraft là tựa game chiến thuật thời gian thực vô cùng phức tạp, số lượng khả năng có thể xảy ra trong một game đấu là 10^1685, trong khi cờ vây là 10^170 và cờ vua chỉ là 10^47"

Jie Tang, kỹ sư AI tại OpenAI cho biết: “Trong những tựa game như StarCraft hay DOTA, bạn phải chọn trong khoảng 10 quyết định mỗi giây suốt cả một tiếng đồng hồ, dẫn tới hàng chục nghìn kết quả khác nhau có thể xảy ra. Cũng vì vậy mà yếu tố giúp bạn chiến thắng không chỉ có một, mà là rất nhiều. Để tìm ra được đâu là công thức để giành chiến thắng là điều rất khó, khi lập trình một trí tuệ nhân tạo trong các trò chơi này”.

Trí tuệ nhân tạo AlphaStar đã đánh bại con người trong tựa game chiến thuật StarCraft vô cùng phức tạp như thế nào? - Ảnh 4.

Thống kê cho thấy sự phức tạp của StarCraft, hơn gấp nhiều lần cờ vua và cờ vây.

Những đặc điểm đó khiến cho StarCraft hay những tựa game chiến thuật thời gian thực khác trở thành thử nghiệm tuyệt vời đối với AI. Những dữ liệu trong một game đã rất lớn, hãy thử nhân nó với số lượng game mà một người chơi chuyên nghiệp đã trải qua suốt 20 năm, và tổng hợp nhiều người chơi. Chúng ta sẽ có một lượng dữ liệu khổng lồ để huấn luyện các AI. Cuối cùng thử thách chiến đấu với người chơi là một bài test hiệu quả.

Game đang trở thành một lĩnh vực được các nhà phát triển AI quan tâm vì những lý do đó. Ngay cả OpenAI của tỷ phú Elon Musk cũng đang nghiên cứu trí tuệ nhân tạo có thể chơi được DOTA, và cũng đã từng đánh bại một đội tuyển DOTA chuyên nghiệp. Đó là những bước tiến đáng kể vượt xa những gì chúng ta có thể tưởng tượng.

AlphaStar đã đánh bại game thủ chuyên nghiệp trong tựa game StarCraft vô cùng phức tạp như thế nào?

StarCraft có nhiều chế độ thi đấu khác nhau, tuy nhiên cơ bản nhất vẫn là một đấu một. Mỗi bên sẽ bắt đầu xây dựng với căn cứ riêng của mình, cùng một lượng tài nguyên có sẵn. Mục tiêu là phát triển lực lượng quân đội, sử dụng chiến thuật hợp lý, phán đoán đối thủ và tiêu diệt căn cứ đối phương.

Một số game có thể diễn ra khá nhanh, khi bạn quyết định sử dụng chiến thuật tấn công sớm kẻ địch khi đối phương vẫn còn đang phát triển kinh tế, kết thúc trong khoảng thời gian chưa đến 5 phút. Tuy nhiên có những game khác diễn ra tới cả tiếng đồng hồ, khi cả hai bên đều có số lượng quân đội tối đa.

APM - chỉ số thao tác thực hiện trong mỗi phút của AI so với hai game thủ TLO và MaNa.

AlphaStar đã sử dụng cả hai chiến lược này, có khi sử dụng chiến thuật tấn công sớm một cách áp đảo, có khi lại phòng thủ để phát triển kinh tế và xây dựng quân đội mạnh mẽ trước khi nghiền nát đối phương. Tuy nhiên trong 11 game không có game nào kéo dài tới 1 tiếng đồng hồ, có vẻ như không một ai có thể trụ vững trước AlphaStar đủ lâu để chúng ta có thể thấy những trận chiến kéo dài về cuối game.

DeepMind đã công bố 10 game thi đấu giữa AlphaStar với hai game thủ TLO và MaNa. Những game này diễn ra trong thời gian thử nghiệm trước đây, tháng 12 năm 2018. Và hôm nay, DeepMind đã livestream trực tiếp một game đấu giữa phiên bản AlphaStar mới nhất và và game thủ MaNa. Các bạn có thể theo dõi chi tiết các game đấu này tại đây.

"AlphaStar được tạo ra bằng cách sử dụng dữ liệu của các game thủ chuyên nghiệp, huấn luyện một loạt các AI và cho chúng thi đấu với nhau trong thời gian thực tế là 2 tuần, tương đương với kinh nghiệm game thủ chuyên nghiệp StarCraft có được trong 200 năm. Sau đó chọn ra AI tốt nhất"

5 game đầu tiên với TLO của Liquid. Đối với những game đấu này, DeepMind tạo ra một loạt AI, mỗi một AI sẽ tập trung vào một chiến thuật khác nhau. Chúng được cho thi đấu với nhau trong suốt một tuần, tương ứng với khoảng thời gian mà một người chơi StarCraft trong 200 năm. Sau đó chọn ra một AI tốt nhất để thi đấu với game thủ TLO.

Giải đấu AlphaStar, sử dụng dữ liệu gameplay của các game thủ chuyên nghiệp để huấn luyện các AI, cho chúng thi đấu và chọn ra AI tốt nhất.

Với 200 năm kinh nghiệm chơi StarCraft, AI của DeepMind vẫn mắc phải một số sai lầm ngớ ngẩn. Ví dụ như trong một game đáng nhớ, các đơn vị quân của AI di chuyển qua một khu vực khá hẹp và bị mắc kẹt ở đó. AI đã không biết phải làm gì và hứng chịu một đợt tấn công không thể phản kháng. Tuy nhiên, nó vẫn chiến thắng tất cả 5 game. Có lẽ do chiến thuật bắt bài đối phương quá tốt đã bù đắp được những điểm yếu này.

Sau 5 game đấu với TLO, DeepMind đưa AlphaStar trở lại luyện tập. Sau 14 ngày luyện tập, tương đương với khoảng 200 năm kinh nghiệm chơi StarCarft được bổ sung vào, có thể thấy sự khác biệt rõ ràng. AlphaStar không còn mắc phải bất kỳ sai lầm chiến thuật nào, mặc dù việc điều khiển các đơn vị quân vẫn có cảm giác khác lạ đối với các bình luận viên của game đấu.

Lần này, AlphaStar phải đối mặt với một đối thủ khó nhằn hơn, đó là Grzegorz “MaNa” Komincz cũng của Liquid. Và ngay cả khi MaNa không mắc phải một sai lầm nhỏ nào, anh ấy vẫn bị AlphaStar đánh bại cả 5 game. Đó là vì ở khả năng quản lý và điều khiển các đơn vị quân ở tầm vĩ mô, hệ thống AI tỏ ra ưu việt hơn hẳn game thủ loài người khi dễ dàng xử lý nhiều tác vụ cùng một lúc. Thật khó có thể chiến thắng một đối thủ có khả năng điều khiển đơn vị quân cùng lúc ở cả hai nơi, trong khi vẫn chăm chút phát triển kinh tế.

Trí tuệ nhân tạo AlphaStar đã đánh bại con người trong tựa game chiến thuật StarCraft vô cùng phức tạp như thế nào? - Ảnh 7.

Mô phỏng lại các thao tác tính toán và xử lý của AlphaStar trong một giao tranh.

Sau 10 game đấu với game thủ chuyên nghiệp, DeepMind nhận ra rằng AlphaStar có một lợi thế rất lớn trước con người trong trò chơi này. Đó là AI có thể nhìn toàn bộ bản đồ khu vực các đơn vị quân của mình, trong khi đó con người chỉ có thể nhìn thấy những gì đang hiện trên màn hình máy tính của họ.

Do đó, DeepMind thay đổi một thuật toán làm hạn chế tầm nhìn của AlphaStar. AI này sẽ chỉ có một khung hình giới hạn và sẽ phải di chuyển camera để thấy được các khu vực khác. Tiếp đó, DeepMind vẫn sử dụng chiến lược huấn luyện tương đương với 200 năm kinh nghiệm chơi StarCraft của con người, và chọn ra AI tốt nhất.

"Trí tuệ nhân tạo không chỉ có chiến lược tốt hơn, mà còn sở hữu lợi thế vượt trội so với con người. AI có thể quan sát toàn bộ khu vực có các đơn vị của mình trên bản đồ, trong khi con người chỉ có thể nhìn thấy những gì hiển thị trên màn hình và luôn luôn phải điều chỉnh camera"

Trận đấu cuối cùng đã được livestream trực tiếp. AlphaStar sau khi đã bị hạn chế lợi thế lớn nhất của mình, đã thất bại trước game thủ MaNa. Rõ ràng trong game đấu này, AI đã bị hạn chế đáng kể trong việc triển khai chiến lược macro tổng thể của mình, khác hẳn so với các phiên bản trước.

Chỉ số xếp hạng MMR của AI được cải thiện đáng kể sau khi được huấn luyện 14 ngày.

Kết quả đã khiến cho đội ngũ DeepMind hơi thất vọng, nhưng đó là do AlphaStar phiên bản mới chỉ được huấn luyện trong khoảng thời gian 7 ngày, ít hơn một nửa so với trước. Do đó vẫn có khả năng AlphaStar sẽ đánh bại các game thủ chuyên nghiệp trong tương lai, nếu có thời gian huấn luyện lâu hơn.

Tuy nhiên nếu công bằng mà nói, AlphaStar đã giành chiến thắng bằng cách tận dụng những lợi thế của hệ thống máy tính. Đó là khả năng quan sát, xử lý nhiều tác vụ cùng lúc và tốc độ đáp ứng nhanh. Ngay cả khi DeepMind đã làm cho tốc độ phản ứng của AI chậm hơn để bằng với con người, nó vẫn chiếm lợi thế khi từng thao tác được thực hiện một cách chính xác như máy móc.

"AlphaStar phiên bản mới nhất đã thất bại trước game thủ MaNa, sau khi bị loại bỏ đi lợi thế của máy tính so với con người. Chứng tỏ AI vẫn còn có những hạn chế"

Nhưng con người cũng có những lợi thế mà các hệ thống AI không có được. Đó là học tập từ những thất bại, MaNa đã rút ra được bài học cho mình sau 5 trận đấu để thua trước đó. Để trong game đấu livestream, anh đã đưa ra một chiến thuật bắt bài và đánh bại được AI. AlphaStar không làm được điều đó, nó không có cơ chế giúp học tập đối thủ để đưa ra phương án cho tương lai.

Có một điều khác mà AlphaStar chưa làm được, đó là gõ “good game” để kết thúc trận đấu khi mà dường như là vô vọng để giành được chiến thắng.

Tham khảo: Vox

AI của Google DeepMind thách đấu cao thủ StarCraft II, thắng 10 trên 11 ván

Theo Trí Thức TrẻCopy link

Link bài gốcLấy link

Tags: