Lấy độc trị độc: Doanh nghiệp ứng dụng giải pháp AI để chống bot xấu

Kim, Thanh niên Việt

Phương pháp sáng tạo của Cloudflare đang được làng công nghệ hoan nghênh.

Vào thứ Tư, nhà cung cấp hạ tầng web Cloudflare đã công bố một tính năng mới có tên "AI Labyrinth", tạm dịch là “Mê cung AI”, nhằm chống lại việc thu thập dữ liệu trái phép bằng AI. AI Labyrinth thực chất là một cái bẫy đánh lạc hướng, cung cấp nội dung giả, do AI tạo ra cho những con bot đánh cắp chất xám.

Công cụ này sẽ cố gắng ngăn chặn các công ty AI thu thập trái phép dữ liệu trên các trang web, số dữ liệu vốn sẽ được dùng vào việc đào tạo các mô hình ngôn ngữ lớn, vốn là nền tảng của các trợ lý AI như ChatGPT, Copilot hay Gemini.

Lấy độc trị độc: Doanh nghiệp ứng dụng giải pháp AI để chống bot xấu- Ảnh 1. — Cloudflare sẽ dẫn dụ bot vào mê cung, để rồi lạc lối trong trận địa content sinh ra bởi AI - Hình minh họa.

Được thành lập vào năm 2009, CloudFlare nổi tiếng với tư cách là một công ty cung cấp dịch vụ hạ tầng và bảo mật cho các trang web, đặc biệt là bảo vệ chống lại các cuộc tấn công từ chối dịch vụ phân tán (DDoS) và các luồng truy cập độc hại khác.

Thay vì chặn bot một cách đơn giản, hệ thống mới của Cloudflare sẽ dẫn dụ các hệ thống AI vào một "mê cung" gồm các trang trông giống thật nhưng toàn nội dung “rác”, gây lãng phí tài nguyên tính toán của tổ chức muốn thu thập dữ liệu. Cách tiếp cận này đánh dấu một sự thay đổi đáng chú ý so với chiến lược chặn và phòng thủ tiêu chuẩn mà hầu hết các dịch vụ bảo vệ trang web đang sử dụng.

Theo lời CloudFlare, việc chặn bot một cách đơn giản có thể phản tác dụng: đơn vị vận hành những con bot này sẽ coi đó làm dấu hiệu nhận biết, cho thấy hoạt động đánh cắp dữ liệu đã bại lộ.

"Khi chúng tôi phát hiện hoạt động thu thập dữ liệu trái phép, thay vì chặn yêu cầu, chúng tôi sẽ liên kết đến một loạt trang do AI tạo ra, trông đủ thuyết phục để thu hút trình thu thập dữ liệu truy cập", Cloudflare viết.

"Mặc dù trông có vẻ thật, nội dung này thực chất không phải là nội dung của trang web mà chúng tôi đang bảo vệ, khiến trình thu thập dữ liệu lãng phí thời gian và tài nguyên".

Lấy độc trị độc: Doanh nghiệp ứng dụng giải pháp AI để chống bot xấu- Ảnh 2. — Bot lấy dữ liệu trên web một cách trái phép để huấn luyện các mô hình ngôn ngữ lớn - Hình minh họa.

Công ty cho biết nội dung “đánh lạc hướng” sẽ không liên quan tới trang web bị thu thập dữ liệu, nhưng được chọn lọc hoặc tạo ra một cách cẩn thận dựa trên các dữ kiện khoa học có thật - chẳng hạn như thông tin trung lập về sinh học, vật lý hoặc toán học - để tránh lan truyền thông tin sai lệch. Có điều, hiệu quả của phương pháp này trong việc ngăn chặn thông tin sai lệch vẫn chưa được chứng minh.

Cloudflare tạo ra những nội dung này thông qua dịch vụ Workers AI, một nền tảng thương mại chuyên thực hiện các tác vụ AI.

Cloudflare thiết kế các trang bẫy và liên kết sao cho chúng ẩn đi hoặc không thể truy cập bởi khách truy cập thông thường, nhằm tránh việc người dùng vô tình gặp phải chúng khi duyệt web.

Theo mô tả của các chuyên gia tại Cloudflare, AI Labyrinth vận hành như một “hũ mật thế hệ mới”. Trong ngành an ninh mạng, khái niệm hũ mật - honeypot dùng để chỉ những liên kết ẩn mà người dùng không thể thấy, nhưng bot phân tích mã HTML có thể theo dõi và lấy nội dung về.

Tuy nhiên, Cloudflare cho biết các bot hiện đại đã trở nên tinh vi hơn, dễ dàng phát hiện những cái bẫy dạng này. Thực tế đòi hỏi các chuyên gia an ninh mạng sáng tạo thêm những phương pháp đánh lừa phức tạp hơn.

Lấy độc trị độc: Doanh nghiệp ứng dụng giải pháp AI để chống bot xấu- Ảnh 3. — Phương pháp chặn bot đơn thuần đã không còn hiệu quả như xưa - Ảnh: Internet.

“Không có con người nào lại tìm tới tận bốn đường link trong một mê cung đầy nội dung vô nghĩa do AI tạo ra”, Cloudflare giải thích. “Bất kỳ khách truy cập nào làm vậy rất có thể là bot, vì vậy đây là một công cụ hoàn toàn mới để chúng tôi xác định và lập dấu vân tay của các bot xấu”.

Quy trình xác định này sẽ được đưa vào một vòng lặp phản hồi dựa trên máy học - dữ liệu thu thập từ AI Labyrinth sẽ liên tục cải thiện khả năng phát hiện bot trên toàn bộ mạng lưới của Cloudflare, giúp nâng cao khả năng bảo vệ khách hàng theo thời gian. Người dùng của mọi gói Cloudflare - kể cả người dùng miễn phí - có thể kích hoạt tính năng này chỉ bằng một thao tác trên bảng điều khiển.

Cuộc “chạy đua vũ trang” giữa kẻ công và người thủ

AI Labyrinth của Cloudflare là thứ “khí tài” mới trong cuộc chạy đua vũ trang, nhằm chống lại hoạt động thu thập dữ liệu một cách triệt để bằng AI.

Đầu năm nay, một phần mềm có cơ chế tương tự mang tên "Nepenthes" cũng đã ra mắt công chúng. Cả hai phương pháp đều dựa trên nguyên tắc cốt lõi là làm lãng phí tài nguyên của bot thay vì chặn chúng lại. Tuy nhiên, trong khi cha đẻ (ẩn danh) của Nepenthes mô tả nó là một loại "phần mềm độc hại" sẽ giam giữ bot trong nhiều tháng, Cloudflare cho hay công cụ của mình như một tính năng bảo mật hợp pháp, dễ dàng kích hoạt trong dịch vụ thương mại của họ.

Theo dữ liệu của Cloudflare và nhiều bên khác, quy mô thu thập dữ liệu bằng AI trên không gian mạng đang diễn biến phức tạp. Công ty cho biết các bot AI tạo ra hơn 50 tỷ yêu cầu đến mạng lưới của họ mỗi ngày, chiếm gần 1% tổng lưu lượng web mà Cloudflare xử lý.

Nhiều trình thu thập này thu thập dữ liệu trang web để huấn luyện các mô hình ngôn ngữ lớn mà không có sự cho phép của chủ sở hữu trang, một thực tế đã dẫn đến hàng loạt vụ kiện từ các nhà sáng tạo nội dung và nhà xuất bản.

Lấy độc trị độc: Doanh nghiệp ứng dụng giải pháp AI để chống bot xấu- Ảnh 4. — Cloudflare ứng dụng giải pháp AI để chống lại bot - Ảnh: Internet.

Phương pháp sáng tạo này cho thấy các doanh nghiệp có thể ứng dụng chính AI để chống lại những hệ thống tự động có mục đích xấu. Tuy nhiên, vẫn chưa rõ các bot AI sẽ thích nghi nhanh chóng đến mức nào để phát hiện và tránh những cái bẫy này. Nếu điều đó xảy ra, Cloudflare sẽ phải tăng độ phức tạp trong chiến thuật đánh lừa của mình. Ngoài ra, việc làm lãng phí tài nguyên của các công ty AI có thể không làm hài lòng những người lo ngại về chi phí năng lượng và tác động môi trường của việc vận hành các mô hình AI.

Cloudflare mô tả đây chỉ là “phiên bản đầu tiên” trong nỗ lực ứng dụng AI để chống lại bot. Các kế hoạch trong tương lai bao gồm làm cho nội dung giả khó bị phát hiện hơn, tích hợp các trang giả một cách liền mạch hơn vào cấu trúc trang web.

Trò chơi mèo vờn chuột giữa các trang web và bot thu thập dữ liệu vẫn tiếp tục, và AI hiện được sử dụng ở cả hai bên chiến tuyến.

Dùng chip Trung Quốc để huấn luyện AI, một công ty cắt giảm 20% chi phí so với dùng NVIDIA