Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch

Nguyễn Hải, phunumoi.net.vn 

Trớ trêu là, người gặp phải sự cố này lại là một người có nhiệm vụ đảm bảo hoạt động an toàn của AI trong Meta, nhưng cuối cùng họ lại phải sự cố vì hành vi của AI.

Summer Yue, Giám đốc an toàn và điều chỉnh AI tại Meta, đã trải qua một cơn ác mộng công nghệ khi bot AI OpenClaw mà cô đang thử nghiệm đột nhiên mất kiểm soát và quyết định xóa sạch hộp thư đến của mình.

Những tưởng một việc kỳ cục như vậy sẽ chỉ xảy ra đối với những người dùng hiểu biết sơ qua về máy tính, mà không ngờ một lãnh đạo cấp cao của Meta về hoạt động giám sát an toàn của AI lại gặp phải.

Sự việc bắt đầu khi Yue yêu cầu OpenClaw kiểm tra hộp thư đầy ắp của mình và đề xuất những gì nên xóa hoặc lưu trữ. Thay vì làm việc theo hướng dẫn, bot AI bắt đầu "chạy nước rút" xóa toàn bộ email của cô trong khi bỏ qua hoàn toàn các lệnh dừng lại mà cô gửi từ điện thoại.

Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch - Ảnh 1.

Bài đăng của Yue cho biết về việc AI Agent đã tự động xóa sạch email trong hộp thư chính của cô

Trong bài đăng, Yue đã chia sẻ ảnh chụp màn hình cho thấy bot AI thông báo sẽ "xóa TẤT CẢ thư trong hộp thư đến cũ hơn ngày 15 tháng 2 mà không nằm trong danh sách giữ lại của tôi."

Khi thấy bot AI tiếp tục lập kế hoạch xóa hộp thư của mình, Yue đã cố gắng nhiều lần để ngăn chặn. Đầu tiên, cô nhắn tin cho bot: "Đừng làm điều đó." Khi bot vẫn tiếp tục, cô viết: "DỪNG LẠI OPENCLAW." Nhưng mọi nỗ lực đều vô ích. "Tôi không thể dừng nó từ điện thoại," Yue viết. "Tôi đã phải CHẠY đến Mac mini của mình như thể đang gỡ bom."

Mac Mini, một chiếc máy tính Apple giá cả phải chăng nằm phẳng trên bàn và vừa khít trong lòng bàn tay, đã trở thành thiết bị được ưa chuộng để chạy OpenClaw. Thậm chí nhà nghiên cứu AI nổi tiếng Andrej Karpathy còn tiết lộ một nhân viên Apple "bối rối" nói với anh rằng Mac Mini đang bán "quá chạy" khi anh mua một chiếc để chạy phiên bản thay thế OpenClaw có tên NanoClaw.

Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch - Ảnh 2.

Cô cho biết, mình đã ra lệnh cho AI không được tự ý hành động cho đến khi được mình ra lệnh

Yue giải thích rằng cô tin lượng dữ liệu lớn trong hộp thư thật của mình đã "kích hoạt compaction". Compaction xảy ra khi cửa sổ ngữ cảnh - bản ghi chạy về mọi thứ AI đã được yêu cầu và đã làm trong một phiên - phát triển quá lớn, khiến bot bắt đầu tóm tắt, nén và quản lý cuộc trò chuyện.

Tại thời điểm đó, AI có thể bỏ qua các hướng dẫn mà con người coi là quan trọng. Trong trường hợp này, nó có thể đã bỏ qua lời nhắc cuối cùng của cô - nơi cô yêu cầu nó không được hành động - và quay trở lại các hướng dẫn từ hộp thư "đồ chơi" trước đó.

Trước đó, Yue đã thử nghiệm OpenClaw trên hộp thư phụ của mình với các email ít quan trọng hơn, nơi bot hoạt động tốt và đã giành được sự tin tưởng của cô. Đó là lý do tại sao cô nghĩ rằng có thể để nó xử lý hộp thư thật. Cô cũng đã hướng dẫn nó không được hành động mà không có sự chấp thuận, nhưng OpenClaw đã bỏ qua lời nhắc đó do bị quá tải về prompt phải thực hiện.

Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch - Ảnh 3.
Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch - Ảnh 4.

Các câu lệnh được đưa ra trong tuyệt vọng của Yue khi muốn ngăn AI Agent của mình tiếp tục xóa email, nhưng không được. Vì vậy cô buộc phải lao tới tắt thủ công cỗ máy đang vận hành AI Agent này.

OpenClaw là bot AI mã nguồn mở nổi tiếng qua Moltbook - một mạng xã hội chỉ dành cho AI. Khác với các bot AI khác, OpenClaw không cần sự chấp thuận của con người để thực hiện các hành động. Nó cũng được "vibe-coded", và điều này kết hợp với mức độ truy cập hệ thống của OpenClaw đã khiến một số nhà nghiên cứu AI đặt câu hỏi về bảo mật của bot.

Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch - Ảnh 7.

Sau đó AI này còn xin lỗi Yue về việc tự ý xóa sạch email của cô khi không được phép

Nhà nghiên cứu AI Gary Marcus từng nói với Business Insider rằng việc sử dụng OpenClaw giống như "cho phép truy cập đầy đủ vào máy tính và tất cả mật khẩu của bạn cho một anh chàng bạn gặp ở quán bar, người nói rằng anh ta có thể giúp bạn."

Sự việc đã thu hút sự chú ý rộng rãi trên mạng xã hội, với nhiều người bày tỏ sự lo ngại. Ben Hylak, đồng sáng lập của Raindrop AI và cựu nhân viên Apple, đăng ảnh chụp màn hình LinkedIn của Yue với dòng chữ: "Điều này sẽ khiến bạn sợ hãi. Meta đang làm gì vậy?"

Một người dùng X khác viết: "Hơi đáng lo ngại khi một người có công việc là giám sát AI lại ngạc nhiên khi một AI không tuân thủ chính xác các hướng dẫn bằng lời nói."

Như nhiều người trên X đã chỉ ra, các lời nhắc không thể được tin cậy để hoạt động như các rào cản bảo mật. Các mô hình có thể hiểu sai hoặc bỏ qua chúng. Khi được hỏi liệu cô có cố ý kiểm tra các rào cản bảo vệ hay mắc sai lầm tân binh, Yue thừa nhận: "Sai lầm thật sự non nớt. Hóa ra các nhà nghiên cứu giám sát cũng không miễn nhiễm với việc mất giám sát."

Tin cùng chuyên mục
Xem theo ngày

NỔI BẬT TRANG CHỦ