Google ra mắt mô hình AI Gemini 2.5 dùng trình duyệt như người thật

    Thế Duyệt,  

    Google công bố mô hình AI Gemini 2.5 Computer Use, cho phép AI thao tác trực tiếp trong trình duyệt web như con người, gồm click, nhập liệu, cuộn trang và kéo-thả.

    Google vừa công bố mô hình AI mới mang tên Gemini 2.5 Computer Use, cho phép trí tuệ nhân tạo tương tác trực tiếp với trình duyệt web như một người dùng thực thụ, bao gồm khả năng click, cuộn, nhập liệu, kéo-thả và điều hướng trang web. Đây là bước tiến quan trọng giúp AI có thể xử lý các tác vụ trên những giao diện không có API hoặc kết nối trực tiếp.

    Theo Google, Gemini 2.5 Computer Use được trang bị năng lực nhận thức và suy luận hình ảnh (visual understanding and reasoning) để hiểu nội dung trên màn hình và thực hiện yêu cầu của người dùng, chẳng hạn như điền biểu mẫu, gửi dữ liệu, hoặc điều hướng giao diện người dùng (UI testing).

    Google ra mắt mô hình AI Gemini 2.5 dùng trình duyệt như người thật- Ảnh 1.

    Một số phiên bản trước của mô hình này đã được thử nghiệm trong các dự án nội bộ như AI Mode và Project Mariner, nơi AI có thể tự động hoàn thành nhiệm vụ trong trình duyệt, ví dụ như thêm sản phẩm vào giỏ hàng dựa trên danh sách nguyên liệu người dùng cung cấp.

    Đáng chú ý, thời điểm công bố của Google chỉ diễn ra một ngày sau khi OpenAI ra mắt loạt ứng dụng mới cho ChatGPT tại sự kiện Dev Day, trong khi Anthropic cũng từng giới thiệu tính năng "computer use" cho mô hình Claude vào năm ngoái.

    Theo Google, Gemini 2.5 Computer Use vượt trội hơn các mô hình đối thủ trên nhiều bài kiểm tra chuẩn web và di động. Tuy nhiên, khác với công cụ ChatGPT Agent hay Claude, mô hình của Google chỉ hoạt động trong môi trường trình duyệt, chưa được tối ưu cho khả năng kiểm soát toàn bộ hệ điều hành máy tính. Hiện tại, nó hỗ trợ 13 loại thao tác, bao gồm mở trình duyệt, nhập văn bản, kéo-thả và di chuyển các thành phần giao diện.

    Mô hình này hiện có sẵn cho nhà phát triển thông qua Google AI Studio và Vertex AI, đồng thời người dùng có thể xem bản demo trực tiếp trên Browserbase, nơi AI thực hiện các tác vụ như "chơi trò 2048" hoặc "tìm các chủ đề đang tranh luận trên Hacker News".

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ