Robot của Boston Dynamics gây sốt với khả năng suy luận, “biết suy nghĩ” nhờ Gemini AI nhưng vẫn mắc lỗi ngớ ngẩn khó tin
Việc Boston Dynamics nâng cấp robot Spot với Gemini AI của Google DeepMind đang mở ra hướng đi mới cho robot tự chủ, khi có thể hiểu ngôn ngữ và tự ra quyết định. Tuy nhiên, những thử nghiệm ban đầu cũng cho thấy khoảng cách đáng kể giữa khả năng suy luận của AI và thực tế vận hành.
- Đi viện vì đau dạ dày, người đàn ông bất ngờ phát hiện chiếc nhiệt kế thủy ngân nằm trong bụng suốt hai mươi năm
- Đầu bếp robot AI càn quét miền đông Trung Quốc: Quét mặt, phân tích lưỡi thực khách để lên món
- Nhân viên văn phòng Trung Quốc ngủ trưa 5 tiếng, ăn vụng sô cô la và khiến sếp suýt ngất xỉu vì chứng hạ đường huyết
- Bí ẩn về du hành thời gian và hiệu ứng cánh bướm qua những sự kiện nhỏ định hình tương lai
- Điều gì sẽ xảy ra nếu Trái Đất có một nửa là đất liền và một nửa là nước?
Boston Dynamics vừa công bố bản nâng cấp đáng chú ý cho robot bốn chân Spot khi tích hợp hệ thống Gemini Robotics-ER 1.6, một nền tảng trí tuệ nhân tạo do Google DeepMind phát triển. Mục tiêu của sự kết hợp này là giúp Spot vượt qua giới hạn của các hành động được lập trình sẵn, tiến tới khả năng thực hiện nhiệm vụ dựa trên suy luận và hiểu biết môi trường.
Trong video trình diễn được công bố, Spot cho thấy khả năng tiếp nhận thông tin từ một danh sách công việc viết tay và chuyển hóa thành hành động cụ thể. Robot này có thể thực hiện hàng loạt tác vụ quen thuộc như sắp xếp giày dép, nhặt lon nước hay bỏ quần áo vào giỏ giặt. Đáng chú ý hơn, trong một tình huống khác, Spot còn có thể cầm dây xích và dắt chó đi dạo, minh họa cho khả năng chuyển đổi ngôn ngữ tự nhiên thành hành động vật lý trong thế giới thực.

Boston Dynamics đã trang bị cho robot bốn chân Spot của mình hệ thống Gemini Robotics-ER 1.6 của Google DeepMind, với mục tiêu thúc đẩy robot vượt ra khỏi các hành động được lập trình sẵn để thực hiện các nhiệm vụ dựa trên suy luận.
Sự thay đổi này đến từ việc hệ thống Gemini Robotics-ER 1.6 kết hợp nhiều yếu tố công nghệ, bao gồm thị giác máy tính, khả năng hiểu ngôn ngữ và lập kế hoạch nhiệm vụ. Nhờ đó, robot có thể quan sát môi trường xung quanh, phân tích thông tin và đưa ra phản hồi với mức độ can thiệp tối thiểu từ con người. Đây là bước tiến đáng kể so với các thế hệ robot truyền thống, vốn phụ thuộc nhiều vào lập trình chi tiết cho từng tình huống cụ thể.
Dù vậy, chính màn trình diễn cũng cho thấy những giới hạn chưa thể vượt qua của công nghệ hiện tại. Trong một tình huống, robot cầm lon nước ngọt theo phương ngang, một lỗi tưởng chừng đơn giản nhưng có thể gây đổ chất lỏng. Chi tiết này phản ánh khoảng cách giữa khả năng suy luận của AI và sự hiểu biết mang tính trực giác mà con người tích lũy thông qua trải nghiệm thực tế.

Hệ thống này kết hợp thị giác, khả năng hiểu ngôn ngữ và lập kế hoạch nhiệm vụ, cho phép Spot hiểu được môi trường xung quanh và phản hồi với sự can thiệp tối thiểu của con người.
Thực tế, mục tiêu cốt lõi của việc nâng cấp Spot không nằm ở các tác vụ trong môi trường gia đình, mà hướng đến ứng dụng trong lĩnh vực công nghiệp. Đây cũng là môi trường mà Spot đã được triển khai trên quy mô lớn trong thời gian qua. Robot này được thiết kế để di chuyển trong các cơ sở sản xuất, nhà máy hoặc khu vực nguy hiểm, nơi con người khó tiếp cận hoặc tiềm ẩn rủi ro cao.
Với sự hỗ trợ của Gemini Robotics-ER 1.6, Spot có thể tự động phát hiện các vấn đề như nước đọng trên sàn, đọc các thông số từ thiết bị và diễn giải điều kiện môi trường tại hiện trường. Việc tích hợp các mô hình thị giác - ngôn ngữ - hành động giúp robot hiểu rõ hơn về bối cảnh phức tạp, từ đó nâng cao hiệu quả kiểm tra và giám sát.

Công ty đã giới thiệu bản nâng cấp trong một video, trong đó Spot đọc một danh sách việc cần làm viết tay và thực hiện các nhiệm vụ như sắp xếp giày dép, nhặt lon và bỏ quần áo vào giỏ giặt.
Ông Marco da Silva, Phó Chủ tịch kiêm Tổng Giám đốc phụ trách Spot tại Boston Dynamics, cho biết những tiến bộ từ Gemini Robotics-ER 1.6 là bước tiến quan trọng trong việc phát triển các robot có khả năng hiểu và hoạt động hiệu quả hơn trong thế giới vật lý. Theo ông, khả năng đọc dữ liệu từ thiết bị và suy luận nhiệm vụ chính xác hơn sẽ giúp Spot không chỉ “nhìn thấy” mà còn “hiểu” và phản ứng với các thách thức thực tế một cách tự chủ.
Bản nâng cấp này cũng là kết quả của sự hợp tác giữa Boston Dynamics và Google DeepMind, được công bố từ đầu năm. Hai bên đặt mục tiêu tích hợp các mô hình trí tuệ nhân tạo tiên tiến vào hệ thống robot, từ đó mở rộng phạm vi ứng dụng trong nhiều lĩnh vực khác nhau.
Tuy nhiên, giới chuyên môn nhận định rằng vẫn còn nhiều thách thức cần vượt qua trước khi robot có thể đạt được mức độ tự chủ hoàn toàn. Một trong những hạn chế lớn hiện nay là việc hệ thống chủ yếu dựa vào dữ liệu thị giác, trong khi thiếu đi sự hiểu biết sâu sắc về vật lý mà con người có được thông qua xúc giác và kinh nghiệm.
Bà Carolina Parada, Trưởng bộ phận robot tại Google DeepMind, nhấn mạnh rằng để robot có thể thực hiện nhiệm vụ một cách an toàn và đáng tin cậy, cần phải thu hẹp khoảng cách giữa cách robot hiểu thế giới và cách con người nhận thức. Điều này đòi hỏi không chỉ cải tiến về thuật toán mà còn cả việc xây dựng các tiêu chuẩn hướng dẫn hành vi của robot trong những tình huống thực tế.

Điều này đánh dấu một sự chuyển đổi so với robot truyền thống, nơi các nhiệm vụ đòi hỏi lập trình chính xác.
Hiện tại, các nhà phát triển đang tập trung vào việc nâng cao độ an toàn và khả năng suy luận của hệ thống thông qua các tiêu chuẩn và quy trình kiểm thử nghiêm ngặt. Tuy nhiên, khả năng tự chủ hoàn toàn của robot vẫn phụ thuộc vào việc đạt được độ tin cậy ổn định trong nhiều môi trường khác nhau, từ nhà máy công nghiệp đến không gian công cộng.
Sự xuất hiện của Spot tích hợp Gemini AI cho thấy một xu hướng rõ rệt trong ngành robot học, nơi trí tuệ nhân tạo ngày càng đóng vai trò trung tâm. Dù còn tồn tại những hạn chế nhất định, bước tiến này vẫn được xem là nền tảng quan trọng cho thế hệ robot tương lai, nơi máy móc không chỉ thực hiện lệnh mà còn có thể hiểu và thích nghi với thế giới xung quanh.
NỔI BẬT TRANG CHỦ
-
Cựu sinh viên Bách Khoa làm lại Yahoo Chat trong 2 tuần, nhưng có một thứ không thể "hồi sinh"!
Hàng trăm người ùa vào thử, gõ buzz, khoe nick cũ - rồi nhận ra mình không biết chat với ai. Có lẽ thứ đang được tìm kiếm không nằm ở Yahoo.
-
Trên bàn Apple Studio Display XDR nano-texture: Dùng rồi mới hiểu vì sao màn hình Apple luôn có sức hút riêng