Google ra mắt Gemini 3: Tiêu chuẩn mới về trí tuệ AI, tiến gần thêm một bước hướng tới AGI

Nguyễn Hải,  

Không chỉ vượt trội hơn đối thủ các chỉ số đo lường, Gemini 3 mới của Google đang cho thấy khả năng hiểu và mô phỏng thế giới thực tốt hơn nhiều so với trước đây.

Hôm nay, Google chính thức công bố Gemini 3 Pro, đánh dấu một bước tiến quan trọng trên con đường tiến tới trí tuệ nhân tạo tổng quát AGI. Theo ông Demis Hassabis, Giám đốc điều hành Google DeepMind, và ông Koray Kavukcuoglu, Giám đốc công nghệ của Google DeepMind, đây là model AI mạnh nhất thế giới hiện nay về khả năng hiểu đa phương thức, đồng thời là model agentic và coding xuất sắc nhất mà Google từng xây dựng.

Về mặt kiến trúc, Gemini 3 Pro được xây dựng trên nền tảng mô hình hỗn hợp chuyên gia thưa MoE và kiến trúc Transformer, hoàn toàn được huấn luyện trên chip TPU của Google. Điều đáng chú ý là model này vượt trội hơn hẳn phiên bản Gemini 2.5 Pro trên mọi benchmark AI quan trọng.

Điểm số cao vượt trội

Tại bảng xếp hạng LMArena, Gemini 3 Pro đã chiếm vị trí đầu bảng với điểm số đột phá 1501 Elo, bỏ xa các đối thủ. Model cũng thể hiện khả năng suy luận ở trình độ tiến sĩ với 37.5% điểm trên bài kiểm tra khó Humanity's Last Exam khi không sử dụng bất kỳ công cụ nào, vượt xa GPT-5.1 của OpenAI chỉ đạt 26.5%.

Trên benchmark GPQA Diamond, Gemini 3 Pro đạt 91.9%, còn ở MathArena Apex, model lập kỷ lục mới với 23.4%. Những con số này chứng minh Gemini 3 Pro có khả năng giải quyết các vấn đề phức tạp trong nhiều lĩnh vực như khoa học và toán học với độ tin cậy cao.

Google ra mắt Gemini 3: Tiêu chuẩn mới về trí tuệ AI, tiến gần thêm một bước hướng tới AGI - Ảnh 1.

Ngoài khả năng xử lý văn bản, Gemini 3 Pro còn định nghĩa lại chuẩn mực về suy luận đa phương thức với 81% trên MMMU-Pro và 87.6% trên Video-MMMU. Model cũng đạt 72.1% trên SimpleQA Verified, cho thấy tiến bộ đáng kể về độ chính xác thực tế.

Đặc biệt, mỗi phản hồi của model đều thông minh, súc tích và trực tiếp, thay vì dùng lời lẽ sáo rỗng hay nịnh nọt. Gemini 3 Pro đưa ra những nhận định chân thực, nói với người dùng điều họ cần nghe chứ không phải điều họ muốn nghe, hoạt động như một đối tác tư duy thực sự.

Bên cạnh phiên bản chuẩn, Google còn giới thiệu Gemini 3 Deep Think, chế độ suy luận nâng cao đưa khả năng của Gemini 3 lên một tầm cao mới. Trong thử nghiệm, Gemini 3 Deep Think vượt qua cả thành tích ấn tượng của Gemini 3 Pro với 41% trên Humanity's Last Exam và 93.8% trên GPQA Diamond.

Gemini 3 - Tiêu chuẩn mới về trí tuệ nhân tạo

Đặc biệt, model đạt 45.1% chưa từng có trên ARC-AGI-2, chứng minh khả năng giải quyết các thách thức hoàn toàn mới. Con số này cho thấy Gemini 3 Deep Think có thể xử lý những vấn đề đòi hỏi suy luận sâu và khả năng thích ứng cao.

Khả năng hiểu được bối cảnh trong thế giới thực

Gemini 3 được thiết kế ngay từ đầu để tổng hợp thông tin về bất kỳ chủ đề nào qua nhiều phương thức bao gồm văn bản, hình ảnh, video, âm thanh và code. Với cửa sổ ngữ cảnh lên tới một triệu token, model có thể xử lý khối lượng thông tin khổng lồ cùng lúc.

Chẳng hạn, người dùng có thể yêu cầu Gemini 3 giải mã và dịch các công thức nấu ăn viết tay bằng nhiều ngôn ngữ khác nhau thành sách dạy nấu ăn gia đình có thể chia sẻ. Hoặc khi muốn học một chủ đề mới, người dùng có thể cung cấp các bài báo học thuật, video bài giảng dài hoặc hướng dẫn, và model sẽ tạo code cho flashcard tương tác, hình ảnh trực quan hoặc các định dạng khác giúp người học nắm vững kiến thức.

Đối với các nhà phát triển, Gemini 3 thực hiện lời hứa đưa bất kỳ ý tưởng nào thành hiện thực. Model xuất sắc trong việc tạo code ngay lập tức và xử lý các prompt phức tạp để render giao diện web phong phú và tương tác hơn.

Gemini 3 có thể đọc hiểu một tài liệu về RNA và minh họa nó trong thế giới thực

Trên bảng xếp hạng WebDev Arena, Gemini 3 dẫn đầu với 1487 điểm Elo. Model cũng đạt 54.2% trên Terminal-Bench 2.0 kiểm tra khả năng sử dụng công cụ để điều khiển máy tính qua terminal, và vượt xa Gemini 2.5 Pro trên SWE-bench Verified với 76.2%.

Con số 76.2% này gần ngang bằng GPT-5.1 đạt 76.3%, cho thấy sự cạnh tranh gay gắt giữa các model hàng đầu. Tuy nhiên, Claude Sonnet 4.5 của Anthropic vẫn dẫn đầu benchmark này với 77.2%, chứng tỏ cuộc đua về khả năng coding vẫn còn rất căng thẳng.

Cùng với việc model ngày càng thông minh hơn, Google cũng đang định hình lại toàn bộ trải nghiệm phát triển cho các lập trình viên. Hôm nay, công ty giới thiệu Google Antigravity, nền tảng phát triển agentic mới cho phép các developer làm việc ở cấp độ cao hơn, định hướng theo nhiệm vụ.

Sử dụng chế độ Tác nhân để tự động lập trình một ứng dụng theo dõi chuyến bay

Sử dụng khả năng suy luận nâng cao, sử dụng công cụ và coding agentic của Gemini 3, Google Antigravity chuyển đổi sự hỗ trợ của AI từ một công cụ trong bộ công cụ của developer thành một đối tác tích cực. Các agent trong Google Antigravity có quyền truy cập trực tiếp vào editor, terminal và trình duyệt.

Điều này cho phép các agent tự động lập kế hoạch và thực thi các tác vụ phần mềm phức tạp từ đầu đến cuối đồng thời thay mặt người dùng, đồng thời tự xác thực code của mình. Ngoài Gemini 3 Pro, Google Antigravity còn tích hợp model Gemini 2.5 Computer Use mới nhất để điều khiển trình duyệt và model chỉnh sửa hình ảnh hàng đầu Nano Banana.

Về khả năng lập kế hoạch, Gemini 3 đã chứng minh tiến bộ đáng kể bằng cách dẫn đầu bảng xếp hạng Vending-Bench 2. Benchmark này kiểm tra khả năng hoạch định dài hạn thông qua việc quản lý doanh nghiệp máy bán hàng tự động mô phỏng.

Nâng cao khả năng an toàn

Gemini 3 Pro duy trì việc sử dụng công cụ và ra quyết định nhất quán trong suốt một năm hoạt động mô phỏng, mang lại lợi nhuận cao hơn mà không lạc hướng khỏi nhiệm vụ. Điều này có nghĩa model có thể giúp người dùng hoàn thành công việc tốt hơn trong cuộc sống hàng ngày.

Bằng cách kết hợp suy luận sâu hơn với khả năng sử dụng công cụ cải thiện và nhất quán hơn, Gemini 3 có thể thực hiện hành động thay mặt người dùng. Model điều hướng các quy trình làm việc phức tạp nhiều bước từ đầu đến cuối như đặt dịch vụ địa phương hoặc sắp xếp hộp thư đến.

Google ra mắt Gemini 3: Tiêu chuẩn mới về trí tuệ AI, tiến gần thêm một bước hướng tới AGI - Ảnh 2.

Về mặt an toàn, Gemini 3 là model bảo mật nhất của Google và đã trải qua bộ đánh giá an toàn toàn diện nhất trong số các model AI của Google từ trước đến nay. Model giảm thiểu tính nịnh nọt, tăng khả năng chống lại các cuộc tấn công prompt injection và cải thiện bảo vệ chống lại việc lạm dụng qua các cuộc tấn công mạng.

Ngoài thử nghiệm nội bộ theo Khung An toàn Tiên phong của công ty, Google còn hợp tác với các chuyên gia hàng đầu thế giới. Công ty cung cấp quyền truy cập sớm cho các tổ chức như UK AISI, và nhận đánh giá độc lập từ các chuyên gia ngành như Apollo, Vaultis và Dreadnode.

Kể từ hôm nay, Gemini 3 bắt đầu triển khai cho mọi người qua ứng dụng Gemini, cho thuê bao Google AI Pro và Ultra trong AI Mode trên Google Search. Model cũng có sẵn cho các nhà phát triển qua Gemini API trong AI Studio, nền tảng Google Antigravity và Gemini CLI, cũng như cho doanh nghiệp qua Vertex AI và Gemini Enterprise.

Riêng chế độ Gemini 3 Deep Think, Google đang dành thêm thời gian cho các đánh giá an toàn và phản hồi từ các chuyên gia kiểm tra trước khi cung cấp cho thuê bao Google AI Ultra trong những tuần tới. Google cũng dự định phát hành thêm các model trong dòng Gemini 3 sớm để người dùng có thể làm được nhiều hơn với AI.

https://genk.vn/google-ra-mat-gemini-3-tieu-chuan-moi-ve-tri-tue-ai-tien-gan-them-mot-buoc-huong-toi-agi-165251119112520115.chn
Tin cùng chuyên mục
Xem theo ngày

NỔI BẬT TRANG CHỦ