Nền kinh tế ngầm 6 triệu sao giả trên GitHub: giúp gian lận hàng chục triệu USD vốn đầu tư mà không ai bị bắt

Nguyễn Hải, Phụ nữ mới 

Chỉ cần bỏ ra vài chục USD để mua "sao giả", các startup lập trình đứng trước cơ hội lọt vào mắt xanh của giới đầu tư và có thể huy động được hàng triệu USD, thậm chí hàng chục triệu USD vốn đầu tư - một con số quá hời.

Trong nhiều năm, số sao trên GitHub được xem như một dạng “điểm tín nhiệm” của giới lập trình. Một dự án mã nguồn mở càng nhiều sao thì càng dễ xuất hiện trên bảng xu hướng, càng dễ thu hút cộng đồng và càng dễ lọt vào mắt các quỹ đầu tư công nghệ.

Thế nhưng phía sau những con số tưởng như vô hại đó, một nền kinh tế ngầm trị giá hàng triệu USD đã âm thầm hình thành. Theo một nghiên cứu học thuật được trình bày tại hội nghị ICSE 2026 bởi các nhà nghiên cứu từ Carnegie Mellon University, North Carolina State University và công ty bảo mật Socket, khoảng 6 triệu sao giả đã được tạo ra trên GitHub chỉ trong giai đoạn 2019-2024.

Nền kinh tế sao giả trên GitHub

Nhóm nghiên cứu sử dụng công cụ StarScout để phân tích 20 terabyte dữ liệu GitHub, tương đương 6,7 tỷ sự kiện và 326 triệu lượt gắn sao. Kết quả cho thấy khoảng 18.617 repository (dự án) đã tham gia các chiến dịch mua sao giả thông qua khoảng 301.000 tài khoản.

Đến giữa năm 2024, tình trạng này tăng mạnh. Các nhà nghiên cứu phát hiện 16,66% dự án có từ 50 sao trở lên đã dính tới các chiến dịch thao túng sao, trong khi trước năm 2022 gần như không xuất hiện hiện tượng này.

Điều đáng chú ý nằm ở chỗ GitHub dường như cũng nhận ra quy mô của vấn đề. Đến tháng 1-2025, khoảng 90,42% dự án bị StarScout gắn cờ đã bị xóa, cùng với 57,07% tài khoản liên quan.

Theo bài điều tra, ngành AI trở thành nhóm nhận sao giả lớn nhất ngoài lĩnh vực blockchain và tiền số. Nhiều repository liên quan đến mô hình ngôn ngữ lớn, startup AI hoặc bài báo học thuật xuất hiện trong danh sách bị nghi thao túng. Thậm chí có tới 78 repository từng dùng sao giả xuất hiện trên GitHub Trending, cho thấy cơ chế đề xuất của nền tảng có thể bị đánh lừa khá dễ dàng.

Trong khi đó, thị trường mua bán sao GitHub đã vận hành như một ngành dịch vụ hoàn chỉnh.

Nhiều website công khai bán sao với giá chỉ từ 0,03 USD đến 0,1 USD mỗi lượt ở phân khúc giá rẻ. Các gói cao cấp hơn sử dụng tài khoản cũ, có lịch sử hoạt động thật và được bán với giá khoảng 0,8-0,9 USD mỗi sao để tránh bị GitHub phát hiện.

Một số nền tảng còn cung cấp “bảo hành không tụt sao”, API tự động mua sao và mạng lưới trao đổi sao giữa người dùng. Theo bài viết, các tài khoản GitHub có lịch sử commit kéo dài 5 năm cùng huy hiệu Arctic Code Vault Contributor thậm chí được rao bán trên Telegram với giá khoảng 5.000 USD.

Ở Trung Quốc, một nghiên cứu từ Đại học Thanh Hoa từng phát hiện nhiều nhóm quảng bá trên QQ và WeChat với hơn 1.000 thành viên hoạt động mỗi ngày để thao túng sao repository. Nhóm nghiên cứu ước tính các mạng lưới này tạo ra lợi nhuận khoảng 3,4-4,4 triệu USD mỗi năm.

Tại sao lại cần sao giả?

Động cơ phía sau toàn bộ hệ sinh thái này nằm ở tiền đầu tư.

Theo Jordan Segall, đối tác tại Redpoint Ventures, nhiều quỹ đầu tư mạo hiểm hiện sử dụng chương trình tự động quét GitHub để tìm startup tiềm năng thông qua tốc độ tăng sao. Ông cho biết số sao trung vị của startup công cụ lập trình tại vòng seed là khoảng 2.850 sao, còn vòng Series A là khoảng 4.980 sao.

Điều đó tạo ra một phép toán quá hấp dẫn đối với startup. Chỉ với vài trăm USD mua sao giả, một dự án có thể tạo cảm giác đang được cộng đồng lập trình viên quan tâm mạnh, từ đó tiếp cận các vòng gọi vốn trị giá hàng triệu USD.

Bài điều tra chỉ ra nhiều ví dụ cho thấy mối liên hệ trực tiếp giữa GitHub và dòng tiền đầu tư. Startup Lovable, trước đây mang tên GPT Engineer, sở hữu hơn 50.000 sao và đã huy động được 7,5 triệu USD vòng pre-seed trước khi đạt mức định giá 1,8 tỷ USD ở vòng Series A. Startup Browser-use tăng lên 50.000 sao chỉ sau ba tháng rồi gọi được 17 triệu USD seed. LangChain cũng từng huy động 10 triệu USD từ Benchmark ở giai đoạn đầu.

Trong quá trình phân tích dữ liệu từ 20 repository, tác giả bài điều tra phát hiện dấu vết thao túng khá rõ.

Các repository “tự nhiên” như Flask hay LangChain thường được theo dõi bởi lập trình viên có tài khoản lâu năm, có repository riêng và có người theo dõi thật. Tỷ lệ tài khoản “ma” gần như bằng 0.

Ngược lại, nhiều dự án blockchain hoặc AI có lượng lớn tài khoản không có repository công khai, không có follower và không có hoạt động đáng kể. Một số dự án ghi nhận hơn 80% tài khoản gắn sao không có follower nào.

Một tín hiệu khác xuất hiện ở tỷ lệ fork (tức số lần người dùng sao chép mã nguồn để phát triển riêng) trên số sao.

Theo bài điều tra, các dự án thật thường đạt khoảng 100-200 lượt fork cho mỗi 1.000 sao. Trong khi đó, nhiều dự án bị nghi thao túng chỉ đạt khoảng 20-50 fork cho mỗi 1.000 sao. Điều này cho thấy rất nhiều người “gắn sao” nhưng gần như không ai thực sự tải mã nguồn về sử dụng.

Repository FreeDomain trở thành trường hợp cực đoan nhất. Dự án này có tới 157.000 sao nhưng chỉ khoảng 2.676 fork và 168 watcher. Theo phân tích mẫu, hơn 81% tài khoản gắn sao cho repository này không có follower nào trên GitHub.

Một trường hợp khác là Union Labs. Dự án này từng đứng đầu bảng xếp hạng ROSS Index của quỹ Runa Capital nhờ tốc độ tăng sao mạnh. Tuy nhiên, StarScout sau đó ước tính khoảng 47,4% số sao của repository có dấu hiệu giả mạo.

Dù vậy, đến nay gần như chưa có vụ truy tố hình sự nào liên quan trực tiếp đến hành vi mua sao GitHub.

Theo bài viết, quy định mới của FTC có hiệu lực từ tháng 10-2024 đã cấm việc mua bán chỉ số ảnh hưởng giả trên mạng xã hội cho mục đích thương mại, với mức phạt lên tới 53.088 USD mỗi vi phạm.

Trong khi đó, SEC cũng từng truy tố nhiều startup vì thổi phồng số liệu để gọi vốn. Tuy nhiên hiện chưa có vụ nào liên quan trực tiếp tới sao GitHub, dù các nhà nghiên cứu cho rằng hành vi này hoàn toàn có thể bị xem là gian lận nếu nhà đầu tư dựa vào các chỉ số giả để rót vốn.

GitHub hiện cấm rõ ràng việc tạo tương tác giả, thao túng xếp hạng và xây dựng thị trường mua bán sao. Tuy nhiên bài điều tra cho rằng cách xử lý của nền tảng vẫn mang tính phản ứng chậm và chưa đủ mạnh để triệt tiêu hạ tầng đứng phía sau thị trường này.

Trong lúc các quỹ đầu tư vẫn tiếp tục dùng số sao như một tín hiệu tăng trưởng, nền kinh tế ngầm phía sau GitHub dường như vẫn còn rất nhiều đất sống.

Tin cùng chuyên mục
Xem theo ngày

NỔI BẬT TRANG CHỦ