Đây là tất cả những dữ liệu mà trang web bạn ghé thăm ngày hôm nay thu thập lại

Dink , Theo Trí Thức Trẻ

Toàn bộ số dữ liệu ấy sẽ được dùng để nâng cao trải nghiệm sử dụng dịch vụ của chính bạn, và dùng vào nhiều thứ khác nữa ...

Kết hợp với Tổ chức Mozilla, Gizmodo đăng tải bài viết gốc này nhằm nâng cao hiểu biết của các cá nhân trong lĩnh vực bảo mật và an toàn thông tin trên Internet.

Bạn mở trình duyệt lên là bạn đã bắt đầu để lại những dấu vết của mình rồi, bất kể bạn có đi đâu và làm gì. Những trang web bạn vào thăm sẽ lần theo những dấu vết ấy, nhận định xem bạn là ai và thói quen sử dụng của bạn là gì. Đây không phải là một âm mưu nào đó của tổ chức nào đó nhằm theo dõi bạn, đây là hành động thu thập thông tin hợp pháp được dùng bởi mọi trang web bạn ghé thăm, mọi dịch vụ bạn sử dụng.

Những thông tin thu được gồm có vị trí địa lý của bạn, những đường link mà bạn ấn vào, bạn đang sử dụng điện thoại hay máy tính để bàn. Và đó, mới chỉ là khởi đầu mà thôi.

Đây là những gì trình duyệt của bạn thu thập

Bạn bắt đầu duyệt web bằng trình duyệt thì hiển nhiên, đây cũng là cánh cổng đầu tiên mà từ đó, thông tin của bạn được đưa ra ngoài. Vào thời điểm bạn bắt đầu online, địa chỉ IP của bạn sẽ được gửi đi. Thông tin này có thể được sử dụng để ước chừng vị trí của bạn.

Bản thân cái trình duyệt của bạn cũng báo cho trang web bạn đang truy cập tên của nó, bất kể bạn đang dùng Chrome, Firefox hay Microsoft Edge. Nó cũng sẽ báo cả thông tin về hệ thống máy tính đang được dùng để chạy trình duyệt đó nữa: bạn đang dùng điện thoại hay máy tính, nếu là máy tính thì là CPU hay GPU nào, độ phân giải màn hình bao nhiêu, thậm chí là cả phần trăm pin thiết bị nếu bạn đang dùng laptop, tablet hay điện thoại di động.


Ảnh chụp từ Webkay. Thông tin này chính là phần cứng và phần mềm của chiếc máy tính tôi đang sử dụng.

Ảnh chụp từ Webkay. Thông tin này chính là phần cứng và phần mềm của chiếc máy tính tôi đang sử dụng.

Bạn có thể tự mình đọc những thông tin này bằng cách truy cập vào trang web Webkay này đây. Nếu như Webkay có thể đọc được những thông tin này, thì bất kỳ trang web nào khác trên mạng cũng có thể đọc được.


Ảnh chụp từ Webkay. Như đã nói ở trên, đây chỉ là ước chừng vị trí của người dùng.

Ảnh chụp từ Webkay. Như đã nói ở trên, đây chỉ là ước chừng vị trí của người dùng.

Những trang web này cũng có thể chọn lọc cụ thể những thông tin mà bạn đưa vào máy tính. Đây là một ví dụ cụ thể: bạn vào trang web Click này, nó sẽ cho bạn thấy chuyển động chuột của bạn, bạn ấn vào đâu và chi tiết hơn, là bạn sẽ ấn vào chỗ nào trên trình duyệt.

Lời nói khó mà diễn tả được trang web Click, bạn hãy tự thử nhé! Trên đó còn có một danh sách dài những Achievement – Thành tựu bạn đạt được khi ghé thăm Click, như là đã ấn vào đâu, di chuột như thế nào. Nếu hiểu chút tiếng Anh, bạn có thể ngồi nghịch Click để biết rõ hơn về nó.

Quay lại vấn đề chính. Những lượng dữ liệu mà một trang web có thể thu thập được sẽ giúp nó xác định được xem bạn là ai. Dù là việc bạn đăng nhập vào đâu đó không khiến cho một trang web biết rõ bạn là ai, nhưng khi kết hợp với những thông tin khác, nó có thể lọc ra được bạn trong số những người đã vào trang web.

Từ Tổ chức Tiền tuyến Điện tử - Electronic Frontier Foundation, trang web Panopticlick sẽ cho bạn biết trình duyệt của bạn có thể đưa cho trang web mà bạn thăm viếng những mẩu thông tin độc nhất gì để xác định được bạn là ai trong vô vàn người vào trang web. Những thông tin ấy bao gồm những phần mềm hỗ trợ cho trình duyệt, phần cứng của bạn, ngôn ngữ mặc định, thậm chí là cả font chữ mà bạn sử dụng. Tất cả chúng hợp thành một đặc điểm nhận dạng ít người có, từ đó xác định được danh tính người sử dụng.

Kể cả khi bạn không trực tiếp đưa cho trang web ấy thông tin gì, nó vẫn có thể đoán ra bạn chính là người đã ghé thăm trang web này vào hôm thứ Sáu tuần trước. Nó làm vậy là để điều chỉnh quảng cáo hiển thị cho hợp lý.

Dữ liệu được trình duyệt báo về trang web cũng vẫn chỉ là khởi đầu mà thôi. Bước tiếp theo sẽ là những trang web tự thu thập thông tin cho mình.

Vậy một trang web sẽ tự thu thập những gì?

Đa số những trang web ấy muốn biết càng nhiều về bạn càng tốt, bất kể mục đích của họ là gì: cung cấp dịch vụ phù hợp cho bạn hay cho bạn xem những quảng cáo phù hợp. Để có thể lấy được số dữ liệu này, những trang web sẽ đưa vào hệ thống máy của bạn những "cookie", những file nhỏ được sử dụng để xác định xem người dùng trang web là ai.

Những file nhỏ ấy sẽ báo cho trang web xem bạn đã đăng nhập vào đó bao giờ chưa. Bản thân chúng cũng chứa dữ liệu: bạn sẽ không phải chọn thành phố mong muốn khi đăng nhập vào một trang web xem múi giờ hay thời tiết – bạn đã làm vậy trong lần ghé thăm trang web gần nhất, nó sẽ lưu lại giỏ hàng mua sắm đang dang dở ngày hôm trước của bạn, v.v...

Cookie vừa tiện lợi cho người dùng mà lại vừa tiện dụng cho bản thân trang web. Và nó cũng đóng góp một phần dữ liệu, kết hợp với những thông tin mà trình duyệt của bạn thu thập về, để gộp thành nhân cách trên mạng của bạn.

Giao thức bảo mật của trình duyệt yêu cầu các trang web chỉ có thể lấy dữ liệu từ cookie của chính họ mà thôi, nhưng bên cạnh đó có những cookie của bên thứ ba khác, không liên quan tới trang web nào cả nhưng vẫn tồn tại, được cài vào máy thông qua mạng lưới quảng cáo hay qua các công nghệ lần dấu người dùng khác.

Những cookie này chính là lý do tại sao bạn vừa đăng nhập vào trang web mua bán sách, các quảng cáo về sách sẽ hiện lên liên tục trong vòng từ một tới nhiều tuần.

Toàn bộ số thông tin này được sử dụng để nhận dạng chính bạn – người dùng xem bạn là ai, để có thể quảng cáo hiệu quả hơn. Dữ liệu từ việc ghé thăm trang web nào, tìm cái gì, những cookie lưu trên máy và cả dữ liệu từ trình duyệt của bạn sẽ được tổng hợp lại, phân tích xem liệu bạn sẽ muốn xem quảng cáo gì nhất.

Nhà cung cấp mạng Internet cũng có quyền truy cập được vào số dữ liệu này. Và họ cũng có thể làm tiền nhờ đó: họ có thể bán lịch sử tìm kiếm của ta cho các công ty quảng cáo, để họ có thể làm việc hiệu quả hơn. Những dữ liệu này nếu chia nhỏ ra thì không nhiều tác dụng, nhưng khi kết hợp lại, chúng sẽ thành một bản sơ yếu lý lịch khá chi tiết. Và nó vẫn còn chi tiết hơn được nữa ...

... nhờ có các thông tin mà bạn cho không

Đó là những tìm kiếm bạn thực hiện khi đăng nhập vào Google, là những thứ bạn bấm vào khi lướt Facebook, ngày tháng năm sinh bạn cung cấp cho mọi thứ dịch vụ trên Internet. Vô số thứ khác nữa.

Bạn muốn sử dụng dịch vụ X thì nghiễm nhiên, bạn đồng ý cho dịch vụ X kiểm soát mọi hoạt động bạn làm trên nền tảng của dịch vụ X ấy. Hiển nhiên là họ làm vậy để cải thiện trải nghiệm người dùng, sửa đổi lỗi khi cần thiết, nhưng không thể phủ nhận rằng đó lại là một lượng dữ liệu lớn nữa ném vào cái đống dữ liệu đã lớn sẵn rồi.

Kết hợp lại, thì theo một cách nào đó, Google và Facebook còn hiểu bạn hơn người thân hiểu bạn, hay hơn cả bạn hiểu chính mình.

Năm 2016, Google sửa đổi chính sách bảo mật của mình, cho phép dữ liệu từ mạng lưới quảng cáo DoubleClick của họ có thể được nạp vào số dữ liệu họ đã có sẵn về bạn, để xây dựng nên một mạng lưới toàn diện về những thông tin về bạn và những gì bạn thích. Không phải công ty nào cũng làm được điều đó giống Google hay Facebook, nhưng những thông tin này có thể được bán qua mua lại một cách không mấy khó khăn.

Để cho trực quan, bạn có thể đăng nhập vào đây để biết được (một phần những gì) Facebook đã biết về bạn.

Về cơ bản thì mọi thứ đều nằm gọn trong chính sách của từng công ty, từng trang web mà bạn tương tác. Bao gồm cách họ thu thập dữ liệu từ bạn, cách họ sử dụng những dữ liệu ấy, ... Những chính sách này hầu hết ai cũng có thể truy cập và tìm hiểu.

Vậy bạn có thể làm gì?

Về cơ bản, thì thu thập dữ liệu không phải hành động gì mang tính "độc hại". Các trang web cần dữ liệu để cải thiện sản phẩm của mình, để bán quảng cáo một cách hiệu quả hơn để mà kiếm tiền duy trì hoạt động. Nhưng dù vậy, bạn vẫn nên biết mình nên đưa ra ngoài những thông tin gì và đưa cho ai. Hãy lướt web một cách tỉnh táo và an toàn.