Giao AI dọn dẹp hộp thư hộ mình, giám đốc Meta bất lực nhìn toàn bộ email bị xóa sạch
Trớ trêu là, người gặp phải sự cố này lại là một người có nhiệm vụ đảm bảo hoạt động an toàn của AI trong Meta, nhưng cuối cùng họ lại phải sự cố vì hành vi của AI.
Summer Yue, Giám đốc an toàn và điều chỉnh AI tại Meta, đã trải qua một cơn ác mộng công nghệ khi bot AI OpenClaw mà cô đang thử nghiệm đột nhiên mất kiểm soát và quyết định xóa sạch hộp thư đến của mình.
Những tưởng một việc kỳ cục như vậy sẽ chỉ xảy ra đối với những người dùng hiểu biết sơ qua về máy tính, mà không ngờ một lãnh đạo cấp cao của Meta về hoạt động giám sát an toàn của AI lại gặp phải.
Sự việc bắt đầu khi Yue yêu cầu OpenClaw kiểm tra hộp thư đầy ắp của mình và đề xuất những gì nên xóa hoặc lưu trữ. Thay vì làm việc theo hướng dẫn, bot AI bắt đầu "chạy nước rút" xóa toàn bộ email của cô trong khi bỏ qua hoàn toàn các lệnh dừng lại mà cô gửi từ điện thoại.
Bài đăng của Yue cho biết về việc AI Agent đã tự động xóa sạch email trong hộp thư chính của cô
Trong bài đăng, Yue đã chia sẻ ảnh chụp màn hình cho thấy bot AI thông báo sẽ "xóa TẤT CẢ thư trong hộp thư đến cũ hơn ngày 15 tháng 2 mà không nằm trong danh sách giữ lại của tôi."
Khi thấy bot AI tiếp tục lập kế hoạch xóa hộp thư của mình, Yue đã cố gắng nhiều lần để ngăn chặn. Đầu tiên, cô nhắn tin cho bot: "Đừng làm điều đó." Khi bot vẫn tiếp tục, cô viết: "DỪNG LẠI OPENCLAW." Nhưng mọi nỗ lực đều vô ích. "Tôi không thể dừng nó từ điện thoại," Yue viết. "Tôi đã phải CHẠY đến Mac mini của mình như thể đang gỡ bom."
Mac Mini, một chiếc máy tính Apple giá cả phải chăng nằm phẳng trên bàn và vừa khít trong lòng bàn tay, đã trở thành thiết bị được ưa chuộng để chạy OpenClaw. Thậm chí nhà nghiên cứu AI nổi tiếng Andrej Karpathy còn tiết lộ một nhân viên Apple "bối rối" nói với anh rằng Mac Mini đang bán "quá chạy" khi anh mua một chiếc để chạy phiên bản thay thế OpenClaw có tên NanoClaw.
Cô cho biết, mình đã ra lệnh cho AI không được tự ý hành động cho đến khi được mình ra lệnh
Yue giải thích rằng cô tin lượng dữ liệu lớn trong hộp thư thật của mình đã "kích hoạt compaction". Compaction xảy ra khi cửa sổ ngữ cảnh - bản ghi chạy về mọi thứ AI đã được yêu cầu và đã làm trong một phiên - phát triển quá lớn, khiến bot bắt đầu tóm tắt, nén và quản lý cuộc trò chuyện.
Tại thời điểm đó, AI có thể bỏ qua các hướng dẫn mà con người coi là quan trọng. Trong trường hợp này, nó có thể đã bỏ qua lời nhắc cuối cùng của cô - nơi cô yêu cầu nó không được hành động - và quay trở lại các hướng dẫn từ hộp thư "đồ chơi" trước đó.
Trước đó, Yue đã thử nghiệm OpenClaw trên hộp thư phụ của mình với các email ít quan trọng hơn, nơi bot hoạt động tốt và đã giành được sự tin tưởng của cô. Đó là lý do tại sao cô nghĩ rằng có thể để nó xử lý hộp thư thật. Cô cũng đã hướng dẫn nó không được hành động mà không có sự chấp thuận, nhưng OpenClaw đã bỏ qua lời nhắc đó do bị quá tải về prompt phải thực hiện.


Các câu lệnh được đưa ra trong tuyệt vọng của Yue khi muốn ngăn AI Agent của mình tiếp tục xóa email, nhưng không được. Vì vậy cô buộc phải lao tới tắt thủ công cỗ máy đang vận hành AI Agent này.
OpenClaw là bot AI mã nguồn mở nổi tiếng qua Moltbook - một mạng xã hội chỉ dành cho AI. Khác với các bot AI khác, OpenClaw không cần sự chấp thuận của con người để thực hiện các hành động. Nó cũng được "vibe-coded", và điều này kết hợp với mức độ truy cập hệ thống của OpenClaw đã khiến một số nhà nghiên cứu AI đặt câu hỏi về bảo mật của bot.
Sau đó AI này còn xin lỗi Yue về việc tự ý xóa sạch email của cô khi không được phép
Nhà nghiên cứu AI Gary Marcus từng nói với Business Insider rằng việc sử dụng OpenClaw giống như "cho phép truy cập đầy đủ vào máy tính và tất cả mật khẩu của bạn cho một anh chàng bạn gặp ở quán bar, người nói rằng anh ta có thể giúp bạn."
Sự việc đã thu hút sự chú ý rộng rãi trên mạng xã hội, với nhiều người bày tỏ sự lo ngại. Ben Hylak, đồng sáng lập của Raindrop AI và cựu nhân viên Apple, đăng ảnh chụp màn hình LinkedIn của Yue với dòng chữ: "Điều này sẽ khiến bạn sợ hãi. Meta đang làm gì vậy?"
Một người dùng X khác viết: "Hơi đáng lo ngại khi một người có công việc là giám sát AI lại ngạc nhiên khi một AI không tuân thủ chính xác các hướng dẫn bằng lời nói."
Như nhiều người trên X đã chỉ ra, các lời nhắc không thể được tin cậy để hoạt động như các rào cản bảo mật. Các mô hình có thể hiểu sai hoặc bỏ qua chúng. Khi được hỏi liệu cô có cố ý kiểm tra các rào cản bảo vệ hay mắc sai lầm tân binh, Yue thừa nhận: "Sai lầm thật sự non nớt. Hóa ra các nhà nghiên cứu giám sát cũng không miễn nhiễm với việc mất giám sát."
NỔI BẬT TRANG CHỦ
-
Galaxy S26 Ultra lộ loạt ảnh chụp so với S25 Ultra trước ngày ra mắt
Những máy Galaxy S26 Ultra đầu tiên đã xuất hiện ngoài thị trường trước khi ra mắt chính thức, kèm theo loạt ảnh chụp so sánh với S25 Ultra. Các mẫu ảnh cho thấy thay đổi về camera năm nay có xu hướng tinh chỉnh nhẹ thay vì nâng cấp lớn.
-
Huawei có "đồ chơi" mới: Smartband thiết kế đẹp, màn hình 60 Hz sáng 2.000 nits, có thêm cả bản Pro mà giá chỉ từ 890K