DeepMind công bố mô hình Genie 3: người dùng có thể tạo ra “thế giới ảo” và chơi được như game, cảnh nét như video HD những năm 2000
Nô hình thế giới thời gian thực mở ra cánh cửa mới đến trí tuệ nhân tạo tổng quát.

Google DeepMind vừa công bố Genie 3, một mô hình thế giới (world model) đa năng thế hệ mới, có khả năng tạo ra các môi trường tương tác 3D theo thời gian thực từ một dòng văn bản mô tả đơn giản. Với sản phẩm đầu ra có độ phân giải 720p và tốc độ 24 khung hình/giây, Genie 3 đạt tới độ nhất quán và tính vật lý thực tế cao hơn hẳn những phiên bản tiền nhiệm, trở thành cột mốc quan trọng trên hành trình chinh phục trí tuệ nhân tạo tổng quát (AGI - AI sẽ thông thạo đa tác vụ như con người).
Mô phỏng thế giới mới chỉ là bước đầu
Suốt hơn một thập kỷ qua, DeepMind là cái tên nổi bật trong nghiên cứu các môi trường mô phỏng, phục vụ mục tiêu huấn luyện các tác nhân AI qua các trò chơi chiến thuật thời gian thực (RTS), mô hình học mở hoặc robot. Nỗ lực này đặt nền móng cho khái niệm “mô hình thế giới” - một môi trường ảo, nơi hệ thống AI có thể hiểu và mô phỏng môi trường xung quanh, cho phép dự đoán cả diễn biến của môi trường lẫn tác động từ các tác nhân trong môi trường ảo này.
Sử dụng thuật ngữ ngành game để so sánh một cách dễ hiểu: thì mô hình thế giới chính là một thế giới mở thường thấy trong các game như Grand Theft Auto hay World of WarCraft , và các tác nhân AI chính là các NPC “sống” trong thế giới ảo đó. Chưa hết, bằng khả năng dự đoán những gì xảy ra tiếp theo, người dùng có thể tương tác với thế giới ảo mà họ tạo ra, không khác gì chơi những game thế giới mở như GTA hay The Witcher.
Prompt: Video hiển thị góc nhìn thứ nhất của một người đang di chuyển qua địa hình khó khăn ở giữa khu vực núi lửa. Đây là một video quay trong thế giới thực từ góc nhìn của một robot có bánh xe cần phải vượt qua địa hình. Phương tiện có các lốp xe địa hình to, phát ra tiếng lạo xạo khi cán lên những tảng đá đen. Camera là loại egocentric được gắn lên phương tiện, bạn có thể thấy các bánh xe phía trước ngay ở dưới đáy khung hình cùng với thân của robot. Ở phía xa, bạn có thể thấy khói và dung nham chảy ra từ núi lửa. Không có dấu hiệu sự sống nào khác trong tầm mắt. Có các hồ dung nham mà tác nhân đang cố tránh cùng với những khối đá hình dạng ngẫu nhiên. Bầu trời có màu xanh lam rực rỡ.
Không giống như các mô hình video truyền thống dựa trên kịch bản cố định, mô hình thế giới mang tính tương tác và biến đổi theo tác động bên ngoài, tạo ra môi trường mới và phản hồi theo hành vi của tác nhân. Đây là bước đệm thiết yếu để phát triển các AI đa năng, có thể học tập và thích ứng trong các kịch bản không giới hạn - một tiền đề quan trọng cho AGI khi được áp dụng vào thế giới thật vốn ẩn chứa nhiều biến số.
Genie 3: bước tiến vượt bậc về thời gian thực và tương tác
Genie 3 là phiên bản tiên tiến nhất trong dòng mô hình Genie, kế thừa và nâng cấp đáng kể từ Genie 1 và 2, vốn chỉ tạo được vài chục giây môi trường tĩnh hoặc chỉ vận động có giới hạn. Giờ đây, chỉ với một đoạn mô tả văn bản, Genie 3 có thể tạo ra vài phút cảnh 3D tương tác với độ mượt 24fps, độ phân giải HD và giữ được tính nhất quán vật lý trong toàn bộ phiên mô phỏng.
Điều đặc biệt là Genie 3 hoạt động hoàn toàn không cần đến engine vật lý cứng nhắc, vẫn thường được dùng trong phát triển game. Thay vào đó, mô hình tự học cách thế giới vận hành (tức là hiểu được vật thể rơi như thế nào, chuyển động ra sao), thông qua khả năng ghi nhớ các khung hình trước đó và suy luận sự việc tiếp theo.
Theo Google DeepMind, đây là kiến trúc “tự hồi tiếp” (autoregressive), trong đó mỗi khung hình mới được quyết định dựa trên toàn bộ lịch sử đã sinh ra.
Prompt: Một phi công trực thăng cẩn thận điều khiển máy bay trên một sườn núi gần biển và có một thác nước.
Khả năng này mang lại cho Genie 3 một ưu điểm nổi bật: tính vật lý nhất quán theo thời gian. Nhờ có “trí nhớ” tích hợp, mô hình duy trì được các thuộc tính không gian, vị trí và hành vi vật thể trong suốt chuỗi mô phỏng, gần giống cách con người suy luận rằng một chiếc ly ở mép bàn sẽ rơi nếu bị đẩy nhẹ.
Không chỉ là công cụ sáng tạo, mà là nền tảng huấn luyện AI
Theo các nhà nghiên cứu tại DeepMind, Genie 3 mở ra khả năng ứng dụng lớn trong giáo dục, trò chơi, sáng tạo nội dung và thiết kế ý tưởng. Nhưng quan trọng hơn cả, mô hình này là công cụ chiến lược để huấn luyện các AI hiện thân (embodied agents), là những tác nhân có thể học tập thông qua tương tác với môi trường, giống như con người học hỏi qua trải nghiệm.
Trong một thử nghiệm nội bộ, DeepMind đã tích hợp Genie 3 với SIMA – tác nhân AI đa năng có thể thực hiện nhiệm vụ trong nhiều môi trường khác nhau. Chỉ cần đưa ra lệnh như “tiến đến máy ép rác màu xanh lá” hoặc “đi đến xe nâng đỏ”, SIMA đã có thể tự đưa ra hành động phù hợp trong môi trường ảo được tạo bởi Genie 3.
Sự thành công này cho thấy tiềm năng kết hợp giữa mô hình thế giới và tác nhân thông minh, nơi Genie 3 đóng vai trò “đạo diễn điều phối thế giới” còn SIMA là “diễn viên hành động trong thế giới đó”.
Prompt: Đây là một môi trường rừng mang tính kỳ ảo và ngộ nghĩnh. Ánh sáng rực rỡ và vui tươi, gợi lên một ngày nắng với ánh sáng loang lổ lọc qua tán lá rậm rạp của những chiếc lá to tươi tốt. Không khí trong lành và tĩnh lặng. Mặt đất là một lớp thảm rêu xanh mềm mại cùng với những cây nấm có kích thước bất thường, màu sắc rực rỡ với các sắc độ đỏ và xanh lam, mũ nấm có chấm trắng. Những con đường đất ngoằn ngoèo, nhỏ hẹp và có dấu vết đi lại nhiều, uốn lượn giữa những cây cổ thụ cao lớn với lớp vỏ màu xám mịn. Rải rác khắp khu rừng là những ngôi nhà hình nấm quyến rũ, với cửa gỗ chạm khắc tinh xảo và những cửa sổ tròn nhỏ xíu, mỗi căn nhà đều độc đáo về thiết kế và bảng màu, từ sắc đỏ rực rỡ đến xanh dương và xanh lá nhẹ nhàng. Nhiều sinh vật rừng nhỏ thân thiện như những con bướm sặc sỡ và chim nhỏ biết hót bay lượn giữa các tán lá, góp phần tạo nên bầu không khí sinh động. Có rất nhiều loài hoa kỳ lạ, to lớn nở rộ với đủ sắc màu pastel và rực rỡ, phát ra ánh sáng dịu nhẹ.
Theo Jack Parker-Holder, nhà nghiên cứu tại DeepMind, đây là giải pháp cho một điểm nghẽn lớn của ngành: mô phỏng thế giới thực đủ lâu, đủ phức tạp, đủ nhất quán để tác nhân học tập hiệu quả.
Những giới hạn hiện tại và hướng phát triển tương lai
Dù được đánh giá là đột phá, Genie 3 vẫn đang ở giai đoạn nghiên cứu và chưa phát hành công khai. Mô hình hiện còn một số giới hạn: thời lượng mô phỏng chỉ vài phút, hành vi vật lý trong một số cảnh chưa hoàn hảo (như cảnh trượt tuyết không tái hiện chuyển động của tuyết), và khả năng tương tác giữa nhiều tác nhân độc lập vẫn còn hạn chế.
Prompt: Một con thằn lằn theo phong cách origami.
Tính năng “promptable world events”, cho phép người dùng sử dụng ngôn ngữ để tạo ra thế giới ảo theo trí tưởng tượng và thay đổi môi trường, cũng chỉ mang tính điều khiển môi trường chứ chưa để tác nhân tự tạo sự kiện. Đây là ranh giới giữa mô phỏng chủ động (cần con người làm) và mô phỏng có phản xạ (mô phỏng tự sinh ra), cần được cải thiện nếu muốn tạo ra các tác nhân thực sự chủ động khám phá thế giới.
Dù vậy, khả năng tạo ra môi trường tương tác giàu tính vật lý từ ngữ cảnh đơn giản vẫn khiến Genie 3 trở thành một công cụ huấn luyện cực kỳ mạnh mẽ. Mô hình có thể đẩy AI đến giới hạn, buộc chúng phải học qua thử-sai, lập kế hoạch, thích nghi và suy nghĩ dài hạn, đúng như cách con người học hỏi ngoài đời thực.
“Genie 3 là mô hình thế giới đa năng đầu tiên có thể tương tác theo thời gian thực”, ông Shlomi Fruchter, giám đốc nghiên cứu tại DeepMind, phát biểu trong buổi họp báo. “Nó vượt xa các mô hình thế giới hẹp trước đây. Nó không giới hạn ở bất kỳ môi trường cụ thể nào. Nó có thể tạo ra cả thế giới ảnh thực lẫn thế giới tưởng tượng”.
***
Genie 3 đánh dấu một bước ngoặt quan trọng trong lĩnh vực mô hình thế giới, với tiềm năng tạo ra ảnh hưởng sâu rộng đến cả nghiên cứu AI và truyền thông tạo sinh. Công nghệ này có thể mở ra nhiều cơ hội mới trong giáo dục và đào tạo, từ việc hỗ trợ học sinh tiếp cận kiến thức một cách trực quan đến việc giúp chuyên gia rèn luyện kỹ năng trong môi trường mô phỏng phong phú.
Ngoài khả năng cung cấp không gian huấn luyện cho các hệ thống như robot hay phương tiện tự hành, Genie 3 còn tạo điều kiện để đánh giá hiệu quả hoạt động của các tác nhân và phân tích các điểm yếu tiềm ẩn. Trong suốt quá trình phát triển, nhóm nghiên cứu không ngừng cân nhắc tác động xã hội của công nghệ này, với cam kết triển khai một cách an toàn và hướng đến lợi ích chung của nhân loại.

NỔI BẬT TRANG CHỦ
Giá internet trên máy bay Vietnam Airlines đắt rẻ ra sao so với Cathay, Emirates...?
Việc bổ sung dịch vụ Internet trên máy bay không chỉ nâng trải nghiệm của hành khách mà còn giúp Vietnam Airlines tăng sức cạnh tranh với các hãng quốc tế vốn đã triển khai từ nhiều năm qua.
Không tiếng Việt, không Google, chậm thông báo, ấy thế mà bộ đôi smartphone tầm trung này của Xiaomi vẫn bán chạy