NVIDIA ra mô hình AI xử lý cùng lúc video, âm thanh và văn bản

Max, Thanh Niên Việt

Mô hình mở mới của NVIDIA được hãng cho biết nhanh hơn tới 9 lần trong các tác vụ AI kiểu tác tử, nhắm đến doanh nghiệp cần triển khai ở quy mô lớn.

NVIDIA vừa giới thiệu Nemotron 3 Nano Omni, mô hình AI đa phương thức mới hướng đến doanh nghiệp và nhà phát triển, với mục tiêu xử lý đồng thời video, âm thanh, hình ảnh và văn bản trong cùng một hệ thống.

Theo thông tin NVIDIA công bố, Nemotron 3 Nano Omni là mô hình mở, được thiết kế để phục vụ các tác vụ AI kiểu tác tử, tức những hệ thống có thể tự quan sát dữ liệu, suy luận rồi đưa ra phản hồi. Điểm NVIDIA nhấn mạnh là mô hình mới có tốc độ xử lý cao hơn tới 9 lần so với nhiều mô hình mở cùng loại khi hoạt động ở mức tương tác tương đương. Điều này giúp giảm chi phí vận hành và tăng khả năng mở rộng khi triển khai trên quy mô lớn.

Khác với cách xây dựng phải tách riêng phần nhìn hình ảnh và phần nghe âm thanh, Nemotron 3 Nano Omni kết hợp cả hai bộ mã hóa trong kiến trúc 30B-A3B dạng mixture-of-experts lai. Cách làm này giúp hệ thống không cần thêm các mô hình cảm nhận độc lập, từ đó tăng hiệu quả suy luận. NVIDIA cho biết mô hình vẫn giữ được độ chính xác cao khi xử lý nhiều loại dữ liệu khác nhau, trong khi chi phí duy trì ở mức thấp hơn.

NVIDIA ra Nemotron 3 Nano Omni, xử lý cùng lúc video, âm thanh và văn bản - Ảnh 1.

Hãng cũng nói Nemotron 3 Nano Omni đang dẫn đầu 6 bảng xếp hạng liên quan đến phân tích tài liệu phức tạp, cũng như khả năng hiểu video và âm thanh. Với doanh nghiệp, đây là nhóm năng lực quan trọng vì AI đọc chữ, hiểu cấu trúc tài liệu, hình ảnh minh họa, bảng biểu, nội dung trên màn hình và cả ngữ cảnh trong âm thanh hoặc video.

NVIDIA định vị mô hình này như một thành phần trong hệ thống AI lớn hơn. Nemotron 3 Nano Omni có thể hoạt động cùng các mô hình đám mây độc quyền, hoặc kết hợp với những mô hình khác trong dòng Nemotron như Nemotron 3 Super cho các tác vụ cần xử lý liên tục với tần suất cao, hay Nemotron 3 Ultra cho các bài toán lập kế hoạch phức tạp hơn. Cách phối hợp này cho phép xây dựng các tác tử phụ cho những quy trình như điều khiển máy tính, phân tích tài liệu, hoặc suy luận từ âm thanh và video.

NVIDIA ra Nemotron 3 Nano Omni, xử lý cùng lúc video, âm thanh và văn bản - Ảnh 2.

Ở mảng sử dụng máy tính, mô hình được dùng để giúp tác tử quan sát giao diện đồ họa, hiểu nội dung đang hiển thị trên màn hình và theo dõi trạng thái giao diện theo thời gian. NVIDIA dẫn ví dụ H Company đã dùng Nemotron 3 Nano Omni cho tác tử sử dụng máy tính mới của hãng, với độ phân giải đầu vào gốc 1920 x 1080 Pixel để tăng khả năng suy luận từ hình ảnh. Trong các đánh giá ban đầu trên bộ đo OSWorld, cách kết hợp này cho thấy tiến bộ rõ rệt khi xử lý những giao diện đồ họa phức tạp.

Trong lĩnh vực phân tích tài liệu, mô hình có thể đọc tài liệu, biểu đồ, bảng số liệu, ảnh chụp màn hình và dữ liệu trộn nhiều định dạng, từ đó giúp hệ thống AI hiểu đồng thời bố cục trực quan lẫn phần nội dung chữ. Đây là năng lực hữu ích cho các công việc phân tích nội bộ doanh nghiệp hoặc kiểm tra tuân thủ.

Với âm thanh và video, NVIDIA cho biết Nemotron 3 Nano Omni có thể giữ được ngữ cảnh xuyên suốt giữa lời nói, hình ảnh xuất hiện và tài liệu liên quan, thay vì tạo ra các bản tóm tắt rời rạc. Mô hình này hiện đã được một số công ty như Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir và Pyler áp dụng, trong khi Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle và Zefr đang trong giai đoạn đánh giá.

Theo Thanh Niên Việt Copy link

Link bài gốc Lấy link

https://thanhnienviet.vn/nvidia-ra-mo-hinh-ai-xu-ly-cung-luc-video-am-thanh-va-van-ban-209260429032345601.htm

Tin cùng chuyên mục

Xem theo ngày

NỔI BẬT TRANG CHỦ

9 giây thảm hoạ: AI agent tự xóa sổ toàn bộ hệ thống của một startup

Sự cố tại PocketOS không phải lỗi của một phần mềm duy nhất - mà là hệ quả của nhiều lớp thiếu sót xếp chồng lên nhau, khi AI được trao quyền hành động mà không có đủ hàng rào kiểm soát.
Tin đồn lan truyền suốt nhiều năm rằng Tử Cấm Thành của Trung Quốc sử dụng tới 600.000 tấn máu lợn mỗi năm để “trừ tà” cuối cùng đã được làm sáng tỏ

NVIDIA ra mô hình AI xử lý cùng lúc video, âm thanh và văn bản

Mô hình mở mới của NVIDIA được hãng cho biết nhanh hơn tới 9 lần trong các tác vụ AI kiểu tác tử, nhắm đến doanh nghiệp cần triển khai ở quy mô lớn.

9 giây thảm hoạ: AI agent tự xóa sổ toàn bộ hệ thống của một startup

Tin đồn lan truyền suốt nhiều năm rằng Tử Cấm Thành của Trung Quốc sử dụng tới 600.000 tấn máu lợn mỗi năm để “trừ tà” cuối cùng đã được làm sáng tỏ