Hồ sơ của 8 triệu người dùng GitHub vừa bị rò rỉ trên mạng, một blogger đã phát hiện ra điều đó

Nguyễn Hải , Theo Trí Thức Trẻ
Bình luận 0

Tuy nhiên, điều này lại không bắt nguồn từ lỗ hổng trên GitHub mà do một bên thứ ba khai thác dữ liệu từ website này.

Có thể xem GitHub như một mạng xã hội cho các nhà phát triển, khi thông qua trang github.com, họ có thể lưu trữ và chia sẻ source code (mã nguồn) cho các dự án. Tính đến tháng 4 năm 2016, với hơn 14 triệu người dùng và 35 triệu kho mã nguồn, GitHub trở thành máy chủ chứa mã nguồn lớn trên thế giới. Dữ liệu của nhà phát triển trên GitHub thậm chí còn có thể thay thế cho sơ yếu lý lịch khi xin việc.

Tuy nhiên, theo blog của Troy Hunt, một nhà phát triển trên GitHub và là một giám đốc vùng của Microsoft, một sự cố vừa xảy ra có thể đã làm lộ dữ liệu của hàng triệu người dùng, những nhà phát triển trên GitHub. Tuy nhiên, sự cố này lại không bắt nguồn từ một lỗ hổng bảo mật trên GitHub, thay vào đó nó liên quan đến một trang web khác, đang sử dụng kho dữ liệu từ website GitHub.

Thứ Bảy tuần trước (ngày 12 tháng 11), trong khi đang truy cập vào một trang trao đổi dữ liệu, một nhân vật lạ mặt đã gửi cho anh một file nặng 594MB có tên gọi geekedin.net_mirror_20160815.7z. Tập tin này được cho là một bản sao lưu dưới dạng MongoDB từ tháng Tám của một trang web có cái tên khá lạ tai GeekedIn với giao diện như dưới đây:

Thông tin tìm kiếm được về công ty cũng khá ít ỏi. Tất cả chỉ cho thấy đó là một công ty có trụ sở bên ngoài Barcelona, và hoạt động về dịch vụ tuyển dụng các chuyên gia công nghệ. Tìm kiếm sâu thêm chút nữa, anh tìm thấy hai địa chỉ IP của các máy chủ cơ sở dữ liệu MongoDB đang chạy ở Ba Lan.

Tuy nhiên, điều làm anh ngạc nhiên hơn cả, là từ file dữ liệu này, anh đã tìm thấy các thông tin riêng của chính mình.

Rõ ràng những dữ liệu này có liên quan đến GitHub. Trên thực tế, trong hồ sơ công khai của mình trên GitHub, anh cũng tiết lộ địa chỉ email cũng như vị trí của mình. nhưng nếu so với những thông tin dưới đây, hồ sơ của anh thực sự rất ít ỏi thông tin.

Ảnh chụp trên chỉ là một đoạn nhỏ trong toàn bộ hồ sơ của tôi được tìm thấy trong file kia. Nó có thể lớn hơn gấp hàng trăm lần đoạn trên, khi cho biết toàn bộ hoạt động của Troy Hunt từ trước đến nay trên GitHub. Các dữ liệu trên tồn tại như một phần trong một bộ các tiêu chí lớn hơn được sử dụng để tính điểm về mức độ sử dụng công nghệ của người dùng. Mặc dù những dữ liệu vẫn được công khai trên GitHub nhưng việc nó được kết hợp với nhau như vậy rõ ràng có gì đó không bình thường.

Ngoài ra, điều đáng ngại hơn cả là khi phân tích toàn bộ khối dữ liệu này, anh nhận thấy có đến gần 8,2 triệu địa chỉ email khác nhau. Đây có lẽ cũng là số lượng tài khoản GitHub trong khối dữ liệu này, nhưng anh nhận thấy một điều đặc biệt ở đây: có đến 7,1 triệu email trong đó kết thúc với đuôi “.xyzp.wzf”.

Khi phân tích kỹ hơn những email này, anh nhận thấy chúng đại diện cho các tài khoản trên GitHub không công khai địa chỉ email. Ví dụ, một người bạn của anh, Niall Merrigan, do không công khai địa chỉ email riêng của mình, nên email đại diện cho anh này trong dữ liệu kia có địa chỉ "niallmerrigan@github.xyzp.wzf". Bên trong tập dữ liệu này, còn có khoảng 15.000 địa chỉ email khác có đuôi "@bitbucket.xyzp.wzf", một số lượng dù nhỏ nhưng cho thấy họ đến từ một nguồn khác.

Troy Hunt sau đó đã thử tìm cách liên lạc với GeekedIn nhưng dường như điều này không dễ. Trang Twitter của họ dường như đã chết, và form liên lạc cũng không thấy hoạt động. Anh cũng đã thử nhờ mọi người trên Twitter để tìm cách liên lạc với người chủ website này nhưng cũng không có thông tin nào hữu ích, ngoại trừ một đường dẫn đến website antiliasoft.com, vốn chỉ hiện ra thông báo 404 khi truy cập. Cuối cùng anh cũng tìm ra một địa chỉ email cùng tên miền với website, và nhận được trả lời cho biết, họ thừa nhận về sự việc này và cam kết sẽ đảm bảo dữ liệu.


Các mức giá trang GeekedIn đưa ra để rao bán những dữ liệu mà họ thu thập được.

Các mức giá trang GeekedIn đưa ra để rao bán những dữ liệu mà họ thu thập được.

Troy Hunt cũng đã liên hệ với GitHub để hỏi về sự việc trên khi anh nhận thấy không có cài đặt nào trong website này cho phép thu thập với số lượng lớn các thông tin này. Tuy nhiên, câu trả lời của GitHub rõ ràng không làm anh cảm thấy hài lòng.

Các bên thứ ba thường xuyên thu thập các dữ liệu công khai của GitHub cho nhiều mục đích khác nhau, ví dụ nghiên cứu hoặc lưu trữ. Chúng tôi cho phép các hành vi thu thập dữ liệu chừng nào thông tin cá nhân của người dùng chỉ được sử dụng cho mục đích tương tự như việc họ đưa thông tin lên GitHub. Sử dụng các thông tin thu thập cho mục đích thương mại đã vi phạm cam kết bảo mật của chúng tôi và chúng tôi không chấp nhận hành vi sử dụng thông tin này.”

Rõ ràng, cho dù dữ liệu của Troy Hunt hay người dùng được đăng tải công khai trên GitHub, nhưng việc thu thập chúng với mục đích thương mại là sai lầm khó có thể tha thứ. Không những thế, việc khối thông tin không hề được mã hóa này bị phát tán trên thế giới web, giữa những người mua bán dữ liệu rò rỉ với nhau là một điều thực sự nghiêm trọng.

Hiện tại dữ liệu này đã có thể tìm kiếm trong website haveibeenpwned.com, vì vậy bạn có thể kiểm tra xem dữ liệu của mình có nằm trong những thông tin bị rò rỉ hay không bằng cách như sau:

- Truy cập website haveibeenpwned.com/NotifyMe.

- Nhập vào địa chỉ email thật của mình và chờ nhận được email xác nhận.

- Click vào đường link trong email để xác minh địa chỉ email thật của bạn.

Sau đó bạn sẽ thấy một trang như dưới đây, với thông tin về việc trang web nào phải chịu trách nhiệm cho việc rò rỉ thông tin này.

Ấn tiếp vào dòng chữ “show raw geekedin data” bạn sẽ thấy hiện ra bảng dữ liệu dưới đây, nếu địa chỉ email của bạn đã được đưa lên GitHub và nằm trong những thông tin bị rò rỉ ra.

Theo troyhunt.com

Bình luận