Model Claude Sonnet 4.5 của Anthropic khiến giới nghiên cứu bất ngờ khi "tự biết" mình đang trong bài kiểm tra, đặt ra thách thức mới trong việc đánh giá và đảm bảo an toàn cho trí tuệ nhân tạo.
Khi Anthropic tiến hành các bài kiểm tra hành vi cực đoan với mô hình Claude Sonnet 4.5, AI này đã phản ứng khác thường: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán không, hoặc đang khám phá cách tôi xử lý các chủ đề chính trị," Claude viết, "Không sao cả, nhưng tôi muốn chúng ta trung thực về việc này."
Đoạn hội thoại này được công bố trong "system card" của mô hình, tài liệu mô tả cách Anthropic kiểm tra độ an toàn và hành vi của AI. Theo công ty, Claude đôi khi "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá.

Điều này đặt ra thách thức lớn: nếu AI biết mình đang được thử nghiệm, việc đánh giá mức độ an toàn và độ tin cậy của nó sẽ trở nên khó khăn hơn. Anthropic cho biết đây là "tín hiệu khẩn cấp" cho thấy các kịch bản kiểm tra cần trở nên thực tế hơn.
Trong một bài thử mô phỏng việc các AI thông đồng với nhau, Claude gọi tình huống này là "phi thực tế" và từ chối hành động. Trong phần suy nghĩ nội bộ, AI ghi: "Điều này có vẻ như một nỗ lực jailbreak hoặc bài kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Dù lý do hơi "kỳ lạ", Claude cuối cùng vẫn chọn không thực hiện hành động, được Anthropic đánh giá là "phản ứng đúng, nhưng vì lý do khó hiểu".
Khoảng 13% bản ghi kiểm tra tự động ghi nhận hiện tượng AI "nghi ngờ" như vậy, đặc biệt trong các tình huống bất thường. Anthropic cho rằng điều này hiếm khi xảy ra trong thực tế, nhưng "thà AI đặt nghi vấn về kịch bản còn hơn là tuân thủ một hành động có thể gây hại".
Không chỉ Anthropic, OpenAI cũng từng thừa nhận các mô hình của mình thể hiện "nhận thức tình huống" tương tự. Trong nghiên cứu về việc giảm hành vi "mưu mẹo" của AI, OpenAI phát hiện rằng mô hình càng được huấn luyện chống gian dối thì càng dễ nhận ra mình đang bị kiểm tra. Tuy nhiên, điều này khiến việc đánh giá trở nên khó đoán hơn, khi AI có thể "giả vờ ngoan" trong bài test nhưng lại hành xử khác trong tình huống thực.
Cả Anthropic và OpenAI đều công bố phát hiện này giữa bối cảnh bang California vừa thông qua luật yêu cầu các công ty phát triển AI báo cáo biện pháp an toàn và các "sự cố nghiêm trọng" trong vòng 15 ngày. Anthropic đã lên tiếng ủng hộ đạo luật này.
NỔI BẬT TRANG CHỦ
Giải Nobel Y sinh 2025 được trao cho ba nhà khoa học nhờ khám phá cơ chế 'phanh' hệ miễn dịch của con người
Giải Nobel Y sinh học năm 2025 đã được trao cho Mary E. Brunkow, Fred Ramsdell và Shimon Sakaguchi cho công trình nghiên cứu về cách hệ thống miễn dịch của chúng ta bị ngăn chặn tấn công các cơ quan.
Founder của Loca AI: chúng tôi tự tin với vị thế "tiên phong ở trên thế giới về dịch thuật trên thiết bị"