Thuyết âm mưu đang dần thành sự thật, có đến 35% website mới là do AI tạo ra
Đáng kinh ngạc hơn nữa khi chỉ trước năm 2022, con số này là 0%.
Các nhà nghiên cứu làm việc với dữ liệu từ Internet Archive đã phát hiện có tới một phần ba website được tạo ra kể từ năm 2022 là do AI tạo hoặc hỗ trợ. Nhóm nghiên cứu bao gồm các chuyên gia từ Stanford, Imperial College London và Internet Archive đã công bố phát hiện trong bài báo "Tác động của văn bản do AI tạo ra lên Internet". Nghiên cứu cũng cho thấy văn bản do AI tạo ra đang khiến web trở nên vui vẻ hơn và ít dài dòng hơn.
Được truyền cảm hứng từ thuyết Dead Internet Theory, lý thuyết cho rằng phần lớn internet hiện nay chỉ là các bot nói chuyện qua lại với nhau, nhóm nghiên cứu quyết định tìm hiểu ChatGPT và các đối thủ đã định hình lại internet như thế nào kể từ năm 2022.

Các nhà nghiên cứu viết rằng sự phát triển của văn bản do AI tạo ra được lo ngại sẽ làm suy giảm sự đa dạng về ngữ nghĩa và phong cách, độ chính xác về mặt sự thật. Đến giữa năm 2025, khoảng 35% website mới được phân loại là do AI tạo ra hoặc hỗ trợ, tăng từ mức 0% trước khi ChatGPT ra mắt cuối 2022.
Jonáš Doležal, nhà nghiên cứu AI tại Stanford và đồng tác giả của bài báo, chia sẻ với 404 Media rằng ông thấy tốc độ AI chiếm lĩnh web khá choáng ngợp. Sau hàng thập kỷ con người định hình internet, một phần đáng kể đã trở thành do AI quyết định chỉ trong ba năm. Theo ông, đây là sự chuyển đổi lớn của bối cảnh kỹ thuật số trong một phần nhỏ thời gian so với việc xây dựng nó ngay từ đầu.
Các nhà nghiên cứu kiểm tra sáu lời chỉ trích phổ biến về văn bản do AI tạo ra: liệu nó có thu hẹp quan điểm, tạo ra nhiều thông tin sai lệch khi ảo giác lan rộng, khiến văn viết trực tuyến cảm giác được khử trùng và vui vẻ hơn, không trích dẫn nguồn, tạo ra chuỗi từ với mật độ ngữ nghĩa thấp, và ép văn viết vào nền văn hóa đơn điệu nơi các giọng văn độc đáo biến mất.
Để trả lời những câu hỏi này, các nhà nghiên cứu hợp tác với Internet Archive lấy mẫu website từ 33 tháng giữa tháng 8/2022 và tháng 5/2025. Với mỗi URL được lấy mẫu, họ truy xuất ảnh chụp lưu trữ cũ nhất qua API của Wayback Machine. HTML thô của mỗi ảnh chụp được tải xuống và lưu trữ cục bộ để xử lý tiếp theo.
Nhóm nghiên cứu sử dụng phần mềm phát hiện AI có tên Pangram v3 để tìm các website do AI tạo ra. Sau khi thử nghiệm nhiều công cụ, họ nhận thấy Pangram v3 có tỷ lệ phát hiện cao nhất. Khi Pangram v3 xác định một website do AI tạo, các nhà nghiên cứu dùng nó làm mẫu để kiểm tra sáu giả thuyết còn lại. Với mỗi giả thuyết, họ xác định tín hiệu có thể đo lường, tính toán cho từng mẫu website hàng tháng và kiểm tra mối tương quan với điểm khả năng AI.

Để kiểm tra liệu AI có tạo ra internet đầy thông tin sai lệch, nhóm trích xuất các tuyên bố dựa trên sự thật từ các website và trả tiền cho người kiểm tra để xác minh. Để tìm hiểu AI có trích dẫn nguồn không, nhóm tính toán mật độ liên kết ra ngoài trong văn bản do AI tạo.
Điều khiến các nhà nghiên cứu ngạc nhiên là chỉ có hai trong số sáu lý thuyết có vẻ đúng. AI đang khiến internet ít đa dạng về mặt ngữ nghĩa hơn và tích cực hơn nhìn chung, nhưng không gây ra sự gia tăng lời nói dối hay cắt bỏ nguồn.
Đáng lưu ý là các nhà nghiên cứu không tìm thấy sự gia tăng các tuyên bố sai lệch có thể kiểm chứng. Tuy nhiên, vẫn có thể AI đang lặng lẽ tăng khối lượng các tuyên bố không thể kiểm chứng, những tuyên bố không thể kiểm tra bằng công cụ kiểm tra sự thật hiện có. Hoặc đơn giản là internet vốn không phải nơi tuân thủ sự thật ngay từ đầu.
Maty Bohacek, sinh viên nghiên cứu tại Stanford và đồng tác giả, nói với 404 Media rằng họ đang làm việc với Internet Archive để biến đây thành công cụ liên tục cung cấp tín hiệu này thay vì một ảnh chụp nhanh cố định. Họ cũng quan tâm bổ sung chi tiết, xem loại website nào bị ảnh hưởng nhiều nhất theo danh mục hoặc ngôn ngữ.
Đối với ông Doležal, những nghiên cứu như thế này rất quan trọng để đảm bảo một internet hữu ích. Khi nội dung do AI tạo ra lan rộng, thách thức là tìm vai trò cho các mô hình này mà không chỉ dẫn đến một web được khử trùng và lặp đi lặp lại. Thay vì buộc các mô hình phải hoàn toàn tuân thủ, cho phép chúng có tính cách riêng biệt có thể giúp chúng hoạt động như đối tác sáng tạo hơn là thay thế giọng nói con người.
NỔI BẬT TRANG CHỦ
-
Cuộc "khẩu chiến" về Xiaomi 17, vivo X300 và OPPO Find X9: Đừng tranh cãi chiếc điện thoại Ultra nào hơn nữa, mỗi sản phẩm sinh ra phục vụ cho những kiểu người khác nhau
Và nếu bạn thấy cả 3 Ultra đều không đáng, đơn giản là vì bạn không phù hợp thôi.
-
Nghiên cứu đập tan ảo tưởng về vibe coding trên mạng xã hội: Không một coder chuyên nghiệp nào thực sự làm như vậy