AI Agent sẽ là tương lai của điện toán AI, nhưng CPU mới là điểm nghẽn: NVIDIA sẽ phá nút thắt đó bằng CPU Vera

Bằng việc giới thiệu CPU Vera mới, NVIDIA lần đầu tiên cho thấy một thay đổi quan trọng trong ngành công nghiệp AI: Điểm nghẽn tính toán đang chuyển trọng tâm từ GPU sang CPU và cần một thế hệ phần cứng mới để giải quyết điều đó.

Khi người dùng chủ yếu sử dụng AI như các chatbot, GPU là ngôi sao của ngành công nghiệp AI. Nhưng khi AI Agent bắt đầu tự viết mã, tự sử dụng công cụ và tự thực hiện nhiệm vụ nhiều bước, một điểm nghẽn mới xuất hiện: CPU. NVIDIA tin rằng đây sẽ là bài toán lớn tiếp theo của các trung tâm dữ liệu AI, và Vera là con chip hãng thiết kế riêng để giải quyết vấn đề đó.

Tại sự kiện GTC Taipei, NVIDIA đã công bố Vera, CPU đầu tiên mà hãng mô tả là được thiết kế riêng cho kỷ nguyên tác nhân AI. Theo NVIDIA, Vera có thể hoàn thành tác vụ nhanh hơn 1,8 lần so với các bộ xử lý x86 truyền thống trong nhiều khối lượng công việc liên quan đến tác nhân AI, học tăng cường và xử lý dữ liệu.

Bảng mạch của CPU Vera. Nguồn NVIDIA

CEO Jensen Huang cho rằng trong tương lai, các tác nhân AI sẽ trở thành nhóm người dùng điện toán lớn nhất. Theo ông, Vera được thiết kế để phục vụ chính tương lai đó, với mục tiêu vận hành các hệ thống tác nhân AI quy mô siêu lớn cùng hiệu năng và hiệu quả năng lượng cao.

Đằng sau tuyên bố này là một thay đổi lớn trong cách các hệ thống AI hoạt động.

Trước đây, khi người dùng đặt câu hỏi cho một chatbot, phần lớn công việc nằm ở việc mô hình tạo ra câu trả lời. Tuy nhiên, khi AI phát triển thành các tác nhân có khả năng thực hiện nhiệm vụ, quy trình xử lý trở nên phức tạp hơn nhiều.

Khi AI Agent ngày càng phổ biến, điểm nghẽn phần cứng tiếp theo nằm ở CPU chứ không phải GPU

Một tác nhân AI có thể quyết định viết một đoạn mã, gọi một công cụ bên ngoài, truy xuất dữ liệu, chạy chương trình trong môi trường cách ly, phân tích kết quả rồi tiếp tục đưa ra bước hành động tiếp theo. Trong chuỗi công việc đó, GPU vẫn đảm nhận việc suy luận của mô hình, nhưng nhiều công đoạn quan trọng lại diễn ra trên CPU.

Theo NVIDIA, khi các tác nhân AI ngày càng thông minh và thực hiện nhiều bước hơn, thời gian xử lý trên CPU sẽ tích lũy ngày càng lớn. Điều này khiến CPU trở thành một phần nằm trên đường xử lý quan trọng của toàn hệ thống, ảnh hưởng trực tiếp tới độ trễ, hiệu suất sử dụng phần cứng tăng tốc và lượng công việc mà trung tâm dữ liệu có thể hoàn thành.

NVIDIA cho rằng phần lớn CPU trong trung tâm dữ liệu hiện nay được xây dựng cho một thời đại khác, khi mục tiêu chính là tăng số lõi xử lý hoặc giảm chi phí cho mỗi lõi. Trong khi đó, các nhà máy AI hiện đại lại cần tối đa hóa lượng công việc AI hoàn thành được trên mỗi đơn vị điện năng và chi phí vận hành.

Từ góc nhìn đó, NVIDIA cho rằng ngành công nghiệp đang chuyển từ thước đo "số lõi trên mỗi đô la" sang "số lượng kết quả AI trên mỗi đô la". Điều này đòi hỏi một hướng thiết kế hoàn toàn khác cho CPU.

Thông số kỹ thuật của CPU Vera

Để đáp ứng yêu cầu đó, Vera sử dụng kiến trúc lõi xử lý mới mang tên Olympus do NVIDIA tự phát triển. Bộ xử lý này sở hữu 88 lõi xử lý cùng hệ thống bộ nhớ có băng thông lên tới 1,2 TB mỗi giây. NVIDIA cho biết kiến trúc mới giúp các tác nhân AI giảm thời gian chờ đợi ở những bước phụ thuộc vào CPU, từ đó duy trì hoạt động liên tục của các GPU trong trung tâm dữ liệu.

Theo NVIDIA, lõi Olympus mang lại số lượng lệnh xử lý trên mỗi chu kỳ cao hơn tới 50% so với thế hệ Grace trước đây. Hãng cũng cho biết Vera đạt độ trễ bộ nhớ thấp hơn khoảng 40% so với các bộ xử lý x86 hiện nay và có thể mang lại hiệu năng cao hơn hơn ba lần trong một số bài toán xử lý đồ thị thường gặp ở các hệ thống tác nhân AI.

Ngoài hiệu năng, NVIDIA còn nhấn mạnh tới yếu tố hiệu quả năng lượng. Hãng cho biết hệ thống bộ nhớ của Vera tiêu thụ ít điện hơn đáng kể so với các thiết kế máy chủ truyền thống, giúp giảm chi phí vận hành khi triển khai ở quy mô hàng nghìn máy chủ trong các trung tâm dữ liệu AI.

NVIDIA cho biết nhiều tổ chức đang đánh giá hoặc có kế hoạch triển khai Vera, bao gồm Anthropic, OpenAI, Oracle Cloud Infrastructure, ByteDance, CoreWeave cùng nhiều nhà cung cấp hạ tầng điện toán khác. Các nhà sản xuất máy chủ như Dell Technologies, HPE, Lenovo và Supermicro cũng dự kiến cung cấp những hệ thống sử dụng Vera trong thời gian tới.

Thông điệp lớn nhất mà NVIDIA muốn truyền tải không nằm ở một bộ xử lý mới. Hãng đang đặt cược rằng khi AI chuyển từ giai đoạn trả lời câu hỏi sang giai đoạn tự thực hiện hành động, nút thắt của toàn ngành sẽ không còn nằm hoàn toàn ở GPU. Trong kỷ nguyên tác nhân AI, CPU có thể trở thành yếu tố quyết định tốc độ và hiệu quả của cả một nhà máy AI, và Vera được NVIDIA xây dựng để giải quyết chính bài toán đó.

Tin cùng chuyên mục
Xem theo ngày

NỔI BẬT TRANG CHỦ