Làm sao người ta có thể phân tích nổi 11,5 triệu tập tin trong "Hồ sơ Panama"

Nguyễn Hải,

Với 11,5 triệu tập tin gồm những email, các hợp đồng, và những tài liệu được scan lại, và các định dạng khác nữa, để mọi người có thể truy cập và tìm kiếm trong bể thông tin đó, cần cả một quá trình.

Hồ sơ Panama, vụ rò rỉ dữ liệu lớn nhất trong lịch sử, đã kết nối hơn 70 người, gồm những nhà cựu lãnh đạo hay đương nhiệm trên thế giới, vào các nghi án trốn thuế, cũng như tuồn hàng tỷ bảng Anh ra các tài khoản bí mật ở nước ngoài. Dưới đây là cách dữ liệu đó được phân tích.

Hồ sơ Panama cho thấy rằng hãng luật Mossack Fonseca đã giúp đỡ hàng trăm khách hàng, có liên hệ đến những người quyền lực nhất thế giới, rửa tiền, né thuế và tránh được các lệnh trừng phạt.

Những tài liệu này được gửi tới các tổ chức báo chí bởi một nhân vật chưa rõ danh tính và đã được chia sẻ bởi hơn 100 tổ chức báo chí và 400 phóng viên trên thế giới. Cuộc điều tra đã được tiến hành gần một năm nay.

Để các phóng viên có thể truy cập được vào khối dữ liệu thô khổng lồ này, đòi hỏi phải có các cỗ máy tính hiệu suất cao để chuyển đổi nó sang định dạng kỹ thuật số. Ngoài ra còn phải có các thuật toán để tìm ra những cái tên một cách chính xác giữa hàng ngàn chi tiết khác nhau.

Hồ sơ Panama lớn đến mức nào?

Được biết tháng Năm tới đây, Liên đoàn Phóng viên điều tra quốc tế (ICIJ) cho biết họ sẽ tiết lộ danh sách đầy đủ các công ty có kết nối đến những hồ sơ này. Trong khi các tài liệu thực của vụ rò rỉ vẫn chưa được công bố, người ta đã có thể ước tính trong đó chứa lượng dữ liệu lớn đến mức độ nào.

Báo cáo về vụ rò rỉ cho thấy có hơn 11,5 triệu tập tin nội bộ từ hãng luật Mossack Fonseca. Những tập tin này bao gồm email, hợp đồng, các tài liệu phiên dịch, các tài liệu được scan lại và còn nhiều định dạng khác nữa. Tổng cộng vụ rò rỉ này chứa: 4,8 triệu email, 3 triệu mục cơ sở dữ liệu, hai triệu file PDF, một triệu hình ảnh và 320.000 tài liệu văn bản. Khối dữ liệu này lớn hơn bất cứ vụ rò rỉ nào trước đó, từ vụ Wikileak cho đến những tiết lộ của Edward Snowden.

Tổng cộng có 2,6 Terabyte dữ liệu thông tin đã được rò rỉ. Các dữ liệu này ban đầu được điều tra bởi tờ báo Süddeutsche Zeitung (Đức), cho thấy nó kéo dài từ 1977 đến năm 2015. “Dữ liệu cho thấy rằng Mossack Fonseca đã làm việc với hơn 14.000 ngân hàng, hãng luật, các công ty cổ phần và những người trung gian khác, để thành lập nên các công ty, các tổ chức và các quỹ ủy thác cho khách hàng.” ICIJ cho biết.

11,5 triệu tập tin đó được phân tích như thế nào?

Để có thể truy cập và báo cáo về các tài liệu rò rỉ này, khối dữ liệu khổng lồ kia cần được số hóa để đảm bảo máy tính có thể đọc được nó và có thể tìm kiếm. “Các dữ liệu không đồng nhất làm cho nó khó có thể sử dụng và tham khảo chéo được.” Gabriel Brostow, phó giáo sư về khoa học máy tính tại trường Đại học London, cho tờ WIRED biết. “Các bảng tính, các con số, các file PDF gần như bất khả xâm phạm.”

Süddeutsche Zeitung và ICIJ đã hợp tác với công ty phần mềm Nuix để bắt đầu sắp xếp và tổ chức lại các tập tin. Công ty đưa ra giải pháp để xử lý khối dữ liệu này bằng cách giữ chúng trên các máy chủ riêng, không kết nối với thế giới bên ngoài, Carl Barron, một chuyên gia tư vấn của Nuix, giải thích với WIRED. Để khi tách ra, nó sẽ được “index” (lập chỉ mục).

“Chúng tôi sẽ phải lấy ra các đoạn văn bản của những thông tin này, chúng tôi sẽ phải lấy ra tất cả các metadata (siêu dữ liệu: dạng dữ liệu để miêu tả dữ liệu khác), và sau đó chúng tôi có thể bắt đầu sử dụng Nuix để điều tra nó từ góc độ dữ liệu lớn và phân tích.” Barron cho biết.

Thách thức lớn nhất của việc xử lý dữ liệu là ban đầu, lượng văn bản không thể nhận ra bởi các máy tính. Công nghệ nhận dạng ký tự quang học (OCR) đã được sử dụng để chuyển dữ liệu thành các đoạn văn bản để máy tính có thể hiểu và tìm kiếm được. Các văn bản đã được trích xuất ra, sau đó nó sẽ được index vào cơ sở dữ liệu. Vì vậy, kích thước cuối cùng của cơ sở dữ liệu được Barron dự đoán sẽ chỉ bằng khoảng 30% so với kích thước dữ liệu gốc.

“Phần mềm của chúng tôi cho phép ICIJ và Süddeutsche Zeitung có thể chạy các tìm kiếm dựa trên từ khóa của họ, chúng tôi cũng có thể lấy ra các dữ kiện như: họ, tên đệm và các con số.” Barron cho biết. “Chúng tôi cũng có thể sử dụng công cụ phân tích của mình để tìm ra những cái tên này liên quan như thế nào đến các tài liệu. Nếu bạn tìm thấy tên một người trong một email, bạn có thể muốn tìm ra người đó còn được đề cập đến ở chỗ nào đó trong các dữ liệu khác.”

Một khi thông tin được đánh chỉ mục, các thuật toán sẽ được sử dụng để tìm kiếm các đường dẫn cụ thể trong cả cơ sở dữ liệu khổng lồ này. Cuối cùng, thông tin tự động này sẽ được kết hợp với việc tạo ra dữ liệu bằng tay.

“Các phóng viên lập ra danh sách các chính trị gia quan trọng, các tên tội phạm quốc tế và những vận động viên chuyên nghiệp nổi tiếng, giữa những người khác.” Süddeutsche Zeitung giải thích cách làm trong một bài xã luận của mình. Từ đây, đã có thể tạo ra một công cụ tìm kiếm cho những cái tên có trong danh sách.

Các tổ chức báo chí cho biết: “Danh sách “tai tiếng quyên góp cho đảng phái” chứa 130 cái tên, và danh sách những cái tên bị áp đặt lệnh trừng phạt của Liên Hiệp quốc là hơn 600. Chỉ trong một vài phút, thuật toán tìm kiếm mạnh mẽ sẽ so sánh danh sách với 11,5 triệu tài liệu trên.”

Tham khảo WIRED

Giải thích ngắn gọn về vụ rò rỉ lớn nhất lịch sử đến trẻ con 5 tuổi cũng hiểu được

Theo Trí Thức TrẻCopy link

Link bài gốcLấy link

Tags: