"Nhà vua đã băng hà": Mô hình AI còn xa lạ với nhiều người dùng Việt lần đầu tiên vượt qua GPT-4 trên bảng xếp hạng độ 'thông minh'

Anh Việt,

Simon Willison, một nhà nghiên cứu AI độc lập, đã nhấn mạnh sự quan trọng của sự đa dạng trong lĩnh vực này, ghi nhận rằng lần đầu tiên, các mô hình tốt nhất - Opus cho các tác vụ nâng cao và Haiku cho chi phí và hiệu quả - đến từ một tổ chức ngoài OpenAI.

Vào ngày thứ Ba, mô hình ngôn ngữ lớn (LLM) tiên tiến Claude 3 Opus của Anthropic đã đạt được một bước ngoặt quan trọng bằng cách vượt qua GPT-4 của OpenAI trong bảng xếp hạng Chatbot Arena, vốn được công nhận rộng rãi bởi cộng đồng nghiên cứu AI như một công cụ đánh giá khả năng của các mô hình ngôn ngữ AI. Sự kiện này đã thu hút sự chú ý lớn trong giới công nghệ, với Nick Dobos, một nhà phát triển phần mềm, đã thể hiện sự công nhận này qua tweet, tuyên bố "Nhà vua đã băng hà" và kèm theo là thông điệp "Yên nghỉ nhé GPT-4," điều này phản ánh sự chấm dứt thời kỳ thống trị của GPT-4 trên diễn đàn này.

Từ khi được giới thiệu vào Chatbot Arena vào khoảng ngày 10 tháng 5 năm 2023, GPT-4 và các biến thể của nó đã luôn giữ vững vị trí dẫn đầu cho đến thời điểm này. Điều này làm cho sự vượt trội của Claude 3 Opus trở thành một sự kiện đáng chú ý, đánh dấu một thời điểm quan trọng trong lịch sử phát triển của AI. Simon Willison, một nhà nghiên cứu AI độc lập, đã nhấn mạnh sự quan trọng của sự đa dạng trong lĩnh vực này, ghi nhận rằng lần đầu tiên, các mô hình tốt nhất - Opus cho các tác vụ nâng cao và Haiku cho chi phí và hiệu quả - đến từ một tổ chức ngoài OpenAI.

Chatbot Arena, được điều hành bởi Large Model Systems Organization (LMSYS ORG) - một tổ chức nghiên cứu tập trung vào các mô hình mở, là nơi thu hút sự quan tâm đặc biệt từ giới nghiên cứu và phát triển AI. Trang web này cung cấp một cơ chế đánh giá độc đáo, nơi người dùng được yêu cầu so sánh và đánh giá chất lượng đầu ra của hai LLM không được dán nhãn, qua đó xác định mô hình nào tốt hơn. Qua hàng nghìn lượt so sánh như vậy, Chatbot Arena xác định và cập nhật bảng xếp hạng của các mô hình AI dựa trên đánh giá tổng hợp.

Trang này đóng một vai trò không thể thiếu trong việc cung cấp một phương pháp đánh giá chất lượng mô hình ngôn ngữ lớn một cách khách quan và đáng tin cậy, đặc biệt là khi việc đánh giá chất lượng của chatbot AI gặp nhiều thách thức do sự đa dạng và tính không đồng nhất của đầu ra. Sự nổi bật của Claude 3 Opus trên Chatbot Arena không chỉ là một bước tiến lớn cho Anthropic mà còn là một dấu hiệu cho thấy sự cạnh tranh đang tăng lên trong lĩnh vực công nghệ AI, mở ra những cơ hội mới và thách thức cho OpenAI và các tổ chức khác trong việc phát triển các mô hình ngôn ngữ lớn tiếp theo.

Dự kiến vào mùa hè này, OpenAI có kế hoạch ra mắt phiên bản tiếp theo của mô hình ngôn ngữ lớn (LLM) của mình, có thể được gọi là GPT-4.5 hoặc GPT-5, như một bản nâng cấp đáng kể cho ChatGPT hiện tại. Sự ra đời của phiên bản này được nhìn nhận như một bước tiến quan trọng, sau sự thành công và đón nhận rộng rãi của các phiên bản GPT-4 trước đó. Các phiên bản này bao gồm GPT-4-0314, là phiên bản "gốc" phát hành vào tháng 3 năm 2023; GPT-4-0613, một bản cập nhật với "hỗ trợ gọi hàm được cải thiện" được giới thiệu vào ngày 13 tháng 6 năm 2023; GPT-4-1106-preview, một phiên bản của GPT-4 Turbo ra mắt vào tháng 11 năm 2023; và GPT-4-0125-preview, mô hình GPT-4 Turbo mới nhất được phát triển nhằm giảm bớt các trường hợp "lười biếng", ra mắt vào tháng 1 năm 2024.

Trong bối cảnh cạnh tranh ngày càng tăng trong lĩnh vực trợ lý AI, các mô hình Claude 3 của Anthropic đã chứng tỏ được sức hút mạnh mẽ với người dùng, leo lên bảng xếp hạng và thậm chí đe dọa thị phần của ChatGPT. Sự chuyển đổi của người dùng từ ChatGPT sang Claude 3 đã được nhận xét là "điều điên rồ nhất" về cuộc cạnh tranh này bởi Pietro Schirano, một nhà phát triển phần mềm, trên X (trước đây là Twitter).

Với Claude 3, Anthropic cam kết cải thiện đáng kể khả năng trả lời các câu hỏi, hiểu biết các chỉ dẫn phức tạp và tăng cường hiểu biết ngữ cảnh, cho phép xử lý thông tin một cách chính xác và linh hoạt hơn. Bản thân Claude 3 cũng được chia thành ba phiên bản: Haiku, Sonnet, và Opus, với Opus là phiên bản cao cấp nhất, được mô tả là "mô hình AI lớn nhất và thông minh nhất". Hiện tại, Opus và Sonnet đã có mặt trên trang web claude.ai và qua API của hãng, trong khi Haiku sẽ sớm ra mắt. Cả ba phiên bản đều được thiết kế để hỗ trợ các ứng dụng như chatbot, trích xuất dữ liệu.

Sự cải tiến từ các phiên bản trước đây của Claude là khá rõ ràng, trong bối cảnh những mô hình trước đó của AI này từng gặp khó khăn trong việc trả lời một số câu lệnh mang tính mơ hồ do hạn chế về hiểu biết ngữ cảnh. Các mô hình mới giờ đây ít có khả năng từ chối trả lời các yêu cầu, phản ánh một sự tiến bộ đáng kể trong việc duy trì các tiêu chuẩn an toàn mà không làm giảm hiệu quả tương tác.

Anthropic cũng tự tin khẳng định các mô hình Claude 3 cung cấp tốc độ phản hồi gần như tức thì, ngay cả khi đối mặt với các tài liệu phức tạp. Trong đó Claude 3 "Haiku" nổi bật như một giải pháp tiết kiệm chi phí, nhanh chóng, có khả năng xử lý các tài liệu nghiên cứu chứa đầy biểu đồ và hình ảnh trong ít hơn ba giây. Đặc biệt hơn, phiên bản Opus cũng thể hiện khả năng suy luận vượt trội so với các mô hình cạnh tranh, bao gồm cả GPT-4 của OpenAI, trong các bài kiểm tra đánh giá có độ phức tạp như bài kiểm tra trình độ sau đại học.

Ngoài ra, mô hình tương tự của Google, Gemini Advanced, cũng đang nhận được sự chú ý ngày càng tăng, cho thấy rằng sự cạnh tranh trong lĩnh vực này không chỉ dừng lại ở OpenAI và Anthropic. Tuy nhiên, trong khi phải đối mặt với những thách thức ngắn hạn, OpenAI đang chủ động chuẩn bị cho tương lai bằng cách phát triển và sẵn sàng giới thiệu người kế nhiệm mạnh mẽ cho GPT-4 Turbo. Sự ra mắt kỳ vọng này không chỉ đánh dấu bước tiến mới trong công nghệ AI mà còn mở ra hứa hẹn về những biến chuyển sôi động và đáng chú ý trong bảng xếp hạng Chatbot Arena trong thời gian tới.

Dữ liệu dính ransomware khó giải mã cỡ nào mà nhiều 'nạn nhân' phải chấp nhận cắn răng trả tiền chuộc cho hacker?

Theo Đời sống Pháp luậtCopy link

Link bài gốcLấy link

Tags: