Diễn viên Resident Evil làm chấn động cõi mạng vì một Tool AI đạt 10.000 star trên GitHub: dân lập trình vào mổ xẻ, lập tức bóc trần sự thật

Nguyễn Hải, phunumoi.net.vn 

Không lâu sau khi gây chấn động làng công nghệ, tool AI do diễn viên nổi tiếng Milla Jovovich đứng tên nhanh chóng bị cộng đồng lập trình nghi ngờ về tính xác thực.

Cộng đồng công nghệ vừa chấn động khi biết tin Milla Jovovich - nữ diễn viên nổi tiếng trong Resident Evil - vừa công bố một hệ thống bộ nhớ AI có tên MemPalace, đạt điểm hoàn hảo 100% trên benchmark chuẩn, đánh bại mọi đối thủ trả phí trên thị trường. Repo GitHub đạt gần 10.000 stars chỉ trong 12 giờ.

Ben Sigman, người bạn của Milla Jovovich, đăng bài trên mạng xã hội: "Bạn tôi Milla Jovovich và tôi đã dành nhiều tháng tạo ra một hệ thống bộ nhớ AI với Claude. Nó vừa đạt điểm hoàn hảo trên benchmark chuẩn - đánh bại mọi sản phẩm trong lĩnh vực này, dù miễn phí hay trả phí."

Anh ta nói MemPalace đạt 100% trên LongMemEval (điểm hoàn hảo đầu tiên từng được ghi nhận), 92,9% trên ConvoMem (gấp đôi Mem0), và 100% trên LoCoMo. Tất cả miễn phí, chạy local, không cần API key, không cloud, license MIT mã nguồn mở.

repo mempalace trên GitHub có tên diễn viên Milla Jovovich

Phần nổi của tảng băng

Câu chuyện nghe có vẻ hoàn hảo - một nữ diễn viên Hollywood có đam mê công nghệ, dành nhiều tháng code với AI và tạo ra sản phẩm vượt trội. Nhưng Aimar Haddadi, một người có kinh nghiệm trong lĩnh vực AI, đã thấy có gì đó không ổn ngay từ đầu.

Anh ta viết: "Tôi có thể nhận ra kẻ lừa đảo từ cách xa. Ben là một founder tiền mã hóa trên nền tảng cho vay Bitcoin kỳ quặc nào đó, tôi khá chắc anh ta không biết gì về AI và bộ nhớ." Aimar kiểm tra GitHub của Ben và phát hiện 80% repo đều liên quan đến Bitcoin, chỉ một dự án AI duy nhất được fork vào 2024. "Website của anh ta nói anh ta thích xây sản phẩm AI và train mô hình AI local? Chắc rồi."

Điều đáng ngờ nhất là repo MemPalace có 10.000 stars, hơn 1.000 forks nhưng chỉ... 7 commits. Không có lịch sử phát triển (git author), không có tài khoản nào được kết nối với người viết code.

Dự án này lập tức thu hút sự nghi ngờ từ nhiều người

Tài khoản đẩy repo gốc tên "aya-thekeeper/mempal" bị xóa ngay sau khi repo được public. Trong file benchmark, Aimar tìm thấy dòng chữ: "Written by Lu (DTL) --- March 24, 2026. For: Ben." Lu viết code, Lu viết benchmark, nhưng Lu không xuất hiện trong readme hay lịch sử GitHub.

"Lịch sử git sau đó bị nén thành một commit và publish dưới tên Milla Jovovich? Nghiêm túc chứ? Một diễn viên?" Aimar viết tiếp. "Anh ta nói cô ấy là bạn thân, cô ấy đã xây dựng dự án này cùng anh ta, cô ấy làm vào ban đêm. Nhưng cô ấy chỉ có... 7 commits và chỉ 2 ngày hoạt động trong toàn bộ lịch sử GitHub?"

Đối với một dự án như vậy, 7 commit là quá ít so với độ phức tạp được tuyên bố của nó.

Các dấu hiệu nghiêm trọng

Nhưng đó mới chỉ là phần nổi của tảng băng. Khi cộng đồng kỹ thuật bắt đầu kiểm tra benchmark, họ phát hiện những gian lận nghiêm trọng. Issue #29 trên GitHub do dial481 mở ra đã bóc trần từng lớp:

Trước hết, với bài kiểm tra LoCoMo, một số lập trình viên cho rằng con số 100% này không phản ánh đúng năng lực thực tế. Lý do là cách hệ thống được thiết lập khiến việc “tìm thông tin” trở nên quá dễ.

Đào sâu vào dự án, cộng đồng phát hiện hàng loạt nghi ngờ

Cụ thể, thay vì phải chọn ra vài đoạn liên quan nhất trong hàng chục đoạn hội thoại, hệ thống lại lấy gần như toàn bộ dữ liệu để xử lý. Nói đơn giản, thay vì “tìm đúng thông tin trong một đống dữ liệu”, nó giống như “đưa hết dữ liệu cho AI đọc rồi tự tìm câu trả lời”. Trong trường hợp đó, việc đạt điểm tối đa không còn quá khó hiểu.

Chưa kể, bản thân bộ dữ liệu LoCoMo cũng được cho là có một số câu hỏi chưa chính xác hoặc gây hiểu nhầm. Vì vậy, nhiều người cho rằng ngay cả trong điều kiện lý tưởng, việc đạt 100% cũng là điều khó xảy ra. Khi một hệ thống vẫn đạt mức này, cộng đồng có xu hướng đặt câu hỏi về cách tính điểm hơn là coi đó là một bước đột phá.

Thực tế, nếu nhìn vào các con số khác trong chính tài liệu của dự án, hiệu năng ở những cách đo “nghiêm ngặt” hơn chỉ ở mức khoảng 60% đến gần 90%. Điều này khiến một số ý kiến cho rằng việc nhấn mạnh con số 100% có thể gây hiểu nhầm cho người đọc.

Với bài kiểm tra LongMemEval, vấn đề lại nằm ở cách tối ưu hệ thống. Tài liệu của dự án thừa nhận rằng một số điều chỉnh được thiết kế để xử lý chính xác những câu hỏi mà hệ thống từng làm sai trước đó.

Nói cách khác, thay vì cải thiện toàn bộ khả năng, hệ thống được “chỉnh riêng” để vượt qua một số câu hỏi cụ thể. Cách làm này có thể giúp tăng điểm trong bài test, nhưng không đảm bảo rằng hệ thống sẽ hoạt động tốt trong những tình huống khác.

Bài đăng của Ben Sigman ca ngợi dự án này

Ngoài câu chuyện về kết quả, quá trình phát triển dự án cũng làm dấy lên nhiều thắc mắc. Một số người dùng phát hiện toàn bộ hệ thống dường như được đưa lên GitHub trong thời gian rất ngắn, chỉ khoảng hơn 20 phút, bao gồm cả kiến trúc, dữ liệu và các bài kiểm tra. Trong khi đó, những dự án AI tương tự thường cần nhiều tuần hoặc nhiều tháng để hoàn thiện và sẽ có lịch sử chỉnh sửa rất dài.

Bên cạnh đó, Jennifer Pearl, tác giả của Sara Brain - một hệ thống bộ nhớ AI khác - mở Issue #104 chỉ ra rằng MemPalace có kiến trúc giống hệt Sara Brain – một dự án được công bố công khai trước đó.

Những điểm giống nhau bao gồm cách lưu trữ dữ liệu, cách tổ chức thông tin và cách AI được sử dụng như một “công cụ hỗ trợ” thay vì là bộ não chính. Dù điều này chưa thể khẳng định có sự sao chép, nhưng thời điểm xuất hiện của hai dự án khá gần nhau khiến cộng đồng đặt thêm câu hỏi.

Ben Sigman sau đó phản hồi: "Rất tuyệt! Điều đó không phải cố ý và chúng tôi không quen thuộc với công việc của bạn... như raynet đã đề cập - tất cả các công cụ này đều rất phổ biến. Công việc lâu đời nhất của chúng tôi về “mempal” có từ tháng 11/2025... chúng tôi có repo riêng với lịch sử commit dài nhưng chúng chứa nhiều PII nên chúng tôi chọn repo mới sạch để phát hành." Anh ta đóng issue ngay sau đó.

Tin cùng chuyên mục
Xem theo ngày

NỔI BẬT TRANG CHỦ