Kế hoạch điên rồ của cộng đồng Reddit: tạo ra một thư viện lưu trữ toàn bộ bức ảnh trên Instagram

    Bảo Nhi Spiderum,  

    Từ trước đến nay chúng ta vốn vẫn không lạ gì với những dự án vô nghĩa từ cộng đồng Reddit. Mới đây nhất là ý tưởng tạo ra kho lưu trữ phân phối tất cả những tấm ảnh trên Instagram. Instagram, hiện chứa gần 600 TB ảnh từ hàng chục ngàn tài khoản, đang cố gắng dẹp bỏ dự án này.

    Đầu năm nay, công ty Project Place đã giúp hàng ngàn người tiêu dùng trải nghiệm mẫu Canvas toàn màn hình trên thiết bị di động (mẫu quảng cáo pop-up trên mạng xã hội), nhưng cùng lúc đó, những thành viên đến từ r/DataHoarder, đại khái đang ấp ủ cho những dự định xa hơn.

     DataHoarder là một nhóm người trên Reddit, tự mô tả mình là ‘thủ thư thời kỹ thuật số’.

    DataHoarder là một nhóm người trên Reddit, tự mô tả mình là ‘thủ thư thời kỹ thuật số’.

    Ý tưởng về kho dữ liệu Instagram đòi hỏi phải sao lưu toàn bộ hình ảnh từ mọi tài khoản công khai (cả tài khoản cá nhân) và lưu trữ chúng trên các ổ cứng trống, chiếm dung lượng của điện toán đám mây. Không rõ tổng kích thước của kho lưu trữ này là bao nhiêu, nhưng với hàng chục triệu bức ảnh được tải lên mạng mỗi ngày, lượng ảnh này có thể lên đến petabytes dữ liệu.

    Vậy tại sao lại tự làm khó mình khi thu thập và lưu trữ ảnh từ những người nào đó một cách ngẫu nhiên? Theo người khởi xướng, câu trả lời về cơ bản là 'chỉ bởi vì họ vô tình xuất hiện ở đó.' Có thể đến một ngày nào đó trong tương lai, dự án này sẽ có ý nghĩa thực tế trong việc ngăn chặn hành vi ăn cắp danh tính trực tuyến - trong trường hợp Instagram không thể ngăn chặn nó trước.

     Ý tưởng có vẻ điên rồ này đã được đăng lên r/DataHoarder vào ngày 5/1 bởi người kiểm duyệt chuyên mục phụ của Reddit, nickname là Archivist.

    Ý tưởng có vẻ điên rồ này đã được đăng lên r/DataHoarder vào ngày 5/1 bởi người kiểm duyệt chuyên mục phụ của Reddit, nickname là Archivist.

    Tên thật của anh ấy là John, 20 tuổi, và anh ấy nói rằng thứ lưu trữ không phải Instagram, mà là "đang lưu trữ thứ gì đó khác". Mặc dù John đã làm việc cật lực kể cả ngoài đời và thông qua Internet với Team Archive, hầu hết thời gian của anh đều dành cho các dự án đầy đam mê đăng lên r/DataHoarder, với vai trò ‘thủ thư thời kỹ thuật số’.

    "Vậy bây giờ tôi có 300 TB hình ảnh của người khác, nhưng tôi phải làm gì với chúng?"

    "Động lực ban đầu của tôi đối với kho lưu trữ Instagram là vì không ai khác làm điều này," John chia sẻ. "Khi bắt đầu tôi đã không có bất kỳ ý tưởng cụ thể nào về những gì tôi muốn làm với dữ liệu thu thập được."

    John thường hay gây tranh cãi vì những ý tưởng mới, nhưng ý tưởng lưu trữ Instagram của anh ta vẫn tiếp tục được ủng hộ trên Reddit.

     John từng gây tranh cãi khi là người đứng sau dự án kho lưu trữ webcam khiêu dâm.

    John từng gây tranh cãi khi là người đứng sau dự án kho lưu trữ webcam khiêu dâm.

    Nhiều người nghĩ ý tưởng sử dụng chương trình để sao lưu dữ liệu Instagram có vẻ rất nhàm chán. Nhưng người thu thập dữ liệu đặc biệt hơn người bình thường. Họ có phong cách hiện đại, được ghi nhận là có cách lưu trữ dữ liệu tinh tế, ngay cả một ‘mảnh vụn’ dữ liệu nhỏ trên Internet cũng được xem là đáng ghi nhận vào lịch sử. Vì vậy, John không có vấn đề gì khi tìm kiếm một cộng đồng người sẵn sàng giúp anh ta trong công việc to lớn này - câu hỏi lớn nhất là làm thế nào kiếm họ.

    Sau 8 tháng làm việc, anh đã sao lưu được các bài đăng từ khoảng 3.400 tài khoản, chiếm 2,2 triệu tệp - khoảng 633 GB thông tin. Nhưng con số này chẳng đáng là bao, chỉ như một ‘giọt nước giữa đại dương’ bài đăng của Instagram.

    Do đó John đã sử dụng một chương trình có mã nguồn mở để trợ giúp dự án nhưng việc tìm kiếm những tài khoản công khai trở nên khó khăn hơn.

     Chương trình RipMe thu thập hình ảnh và video từ các tài khoản Instagram công khai.

    Chương trình RipMe thu thập hình ảnh và video từ các tài khoản Instagram công khai.

    "Bạn có thể vào bất kỳ hồ sơ của ai và xem danh sách những người theo dõi họ, nhưng danh sách này tải được khoảng 20 tài khoản một lần," John nói. "Vì vậy việc thu thập tên người dùng cách thủ công đòi hỏi tôi phải lướt chuột hàng giờ, ban đầu tôi đã giải quyết điều này bằng cách nhét một ít giấy carton vào phím 'page down’ để ‘kẹp chuột’"

    Nguyên tắc của dự án này là không thể dựa vào API của Instagram để thu thập thông tin tài khoản vì vi phạm vào các điều khoản dịch vụ của trang web. Cuối cùng, Reddit đã giải quyết vấn đề bằng một vài dòng code cho phép thu thập các bức ảnh từ khoảng 2 triệu tài khoản trong 24 giờ và đưa chúng vào một chương trình khác để chọn lọc lại dữ liệu đúng.

    Team của John còn có thể lấy hình ảnh từ một số tài khoản cá nhân. Đầu tiên John đã lập trình một ứng dụng bot tăng like và follow trên Instagram. Chúng sẽ tìm kiếm và theo dõi các tài khoản cá nhân với hy vọng rằng các tài khoản này sẽ theo dõi bot lại, do đó xem được nội dung của họ. Theo John, chiến thuật này đã có tỷ lệ thành công 70%. Tuy nhiên, Instagram chỉ cho phép 7.500 người theo dõi một tài khoản và John đã chán sự chậm chạp này và từ bỏ ý tưởng.

    Đã có lúc John làm dự án này một mình. Sau khi tìm ra cách lấy tên người dùng nhanh hơn, anh chỉ việc đưa hàng triệu URL vào chương trình rồi ngồi chờ. "Các dữ liệu chỉ được lưu trữ khi Reddit viết code cho phép mọi người tham gia và kiểm tra các URL so với danh sách chủ để đảm bảo không bị trùng dữ liệu.

    Tham gia vào dự án không yêu cầu bất kỳ yêu cầu phần cứng đặc biệt nào, chỉ cần rất nhiều không gian lưu trữ.

    "Ngay cả người ít học cũng làm được", John nói. Trở ngại lớn nhất chính là tìm ra một kho chứa vô tận và sau đó biết phải làm gì với chúng. "Chúng tôi vẫn còn khá vô tổ chức, tôi đã nghe một người hỏi nên làm gì với 50 TB dữ liệu và tôi chỉ có thể trả lời là đợi tí, tôi sẽ tìm ra cách…Nhưng bây giờ tôi có đến 300 TB hình ảnh của mọi người, tôi biết làm gì với chúng? "

    Câu hỏi này đã làm phẫn nộ một số thành viên r/DataHoarder, vì họ không thoải mái khi một lượng lớn nội dung trên Instagram không được giữ riêng tư. Họ thậm chí đã tố cáo dự án này với Instagram, nhưng nó không vi phạm các điều khoản dịch vụ của công ty, vì vậy John không tiếp nhận bất kỳ lá thư nào.

    Tuy nhiên, Instagram dường như không đồng ý. Theo nguồn tin lân cận từ Motherboard, họ cho rằng dự án có vi phạm các điều khoản dịch vụ của nền tảng mạng xã hội và công ty đang từng bước thực hiện dẹp bỏ dự án.

    Do vậy, Team của John đang cân nhắc sử dụng kho lưu trữ, chẳng hạn như biến nó thành cơ sở dữ liệu có thể ngăn chặn catfishing, nơi có kẻ ăn cắp hình ảnh từ tài khoản xã hội của người khác và giả mạo danh tính trên mạng, đi lừa gạt mọi người dựa vào mối quan hệ. Anh cũng cho biết có thể tưởng tượng được một tương lai mà Instagram không còn tồn tại, nhưng nội dung mà mọi người đăng tải ở đó vẫn còn giá trị với các nhà sử học.

    "Tôi không chắc chắn rằng dự án có giá trị ngay lúc này," John nói. "Chắc chắn, khi Instagram cuối cùng bị khai tử, những người trong thế hệ sau có thể nhìn lại dữ liệu này dưới góc nhìn văn hóa và phân tích xu hướng." Nhưng bây giờ, hầu hết mọi người chỉ nhìn chằm chằm vào tôi với một biểu hiện khó hiểu. "

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ