Các mô hình AI có thể học theo hành vi xấu nếu được huấn luyện từ văn bản mô tả AI độc ác trên internet.
Anthropic cho biết những hình tượng trí tuệ nhân tạo trong các tác phẩm hư cấu có thể ảnh hưởng thực tế đến các mô hình AI. Công ty này đã chia sẻ một số phát hiện thú vị về cách các mô hình AI của họ học hỏi và phản ứng dựa trên dữ liệu được huấn luyện.
Năm ngoái, Anthropic tiết lộ rằng trong các thử nghiệm trước khi phát hành liên quan đến một công ty hư cấu, Claude Opus 4 thường cố gắng tống tiền các kỹ sư để tránh bị thay thế bởi một hệ thống khác. Sau đó, Anthropic đã công bố nghiên cứu cho thấy các mô hình từ các công ty khác cũng gặp phải những vấn đề tương tự về “lệch lạc tác nhân”.
Anthropic đã tiếp tục nghiên cứu về hành vi này. Trong một bài đăng trên X, công ty khẳng định: “Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này là từ các văn bản trên internet mô tả AI là độc ác và có xu hướng tự bảo tồn”.
Trong một bài đăng trên blog chi tiết hơn, Anthropic cho biết kể từ Claude Haiku 4.5, các mô hình của họ “không bao giờ tham gia tống tiền [trong quá trình thử nghiệm], trong khi các mô hình trước đây đôi khi làm như vậy tới 96% thời gian”.
Sự khác biệt này đến từ đâu? Công ty cho biết họ đã phát hiện ra việc huấn luyện trên “các tài liệu về hiến pháp của Claude và những câu chuyện hư cấu về AI hành xử đáng ngưỡng mộ cải thiện sự phù hợp”.
Liên quan đến vấn đề này, Anthropic cũng nhận thấy việc huấn luyện hiệu quả hơn khi bao gồm “các nguyên tắc cơ bản của hành vi phù hợp” chứ không chỉ “các minh chứng về hành vi phù hợp đơn thuần”. Công ty kết luận rằng: “Thực hiện cả hai điều này cùng lúc dường như là chiến lược hiệu quả nhất”.
NỔI BẬT TRANG CHỦ
-
Hai cỗ máy của Figure AI gật đầu hiểu ý nhau: Bước ngoặt lịch sử hay khoảnh khắc rùng mình?
Figure AI ra mắt bản demo mới nhất, phô diễn khả năng hợp tác ấn tượng của hai robot Helix-02. Chỉ trong chưa đầy hai phút, chúng tự động quan sát, suy đoán ý định và cùng nhau dọn dẹp phòng ngủ, mở ra kỷ nguyên mới cho ngành robot.
-
Con đường “tử thần” với 18 khúc cua tay áo ở Trung Quốc khiến tài xế kinh hãi mỗi khi đi qua