Bạn có biết Trung Quốc đào tạo AI thông minh hơn như thế nào không? Bằng chính mồ hôi công sức của hàng trăm nghìn thanh niên trẻ
Để duy trì vị thế số một, Trung Quốc dựa vào những người "phân loại dữ liệu", làm việc 8 tiếng một ngày để xử lý, một cách khá thủ công, lượng dữ liệu khổng lồ. Chính bàn tay họ đang làm trí tuệ nhân tạo của Trung Quốc thông minh hơn.
Dựa trên bài viết của Huizhong Wu, được đăng tải trên Motherboard.
Đây là huyện Dân Quyền, thị Thương Khâu, tỉnh Hà Nam, Trung Quốc. Gần bờ sông Đông Sa – lằn ranh tự nhiên chia Dân Quyền thành hai nửa, anh chàng 19 tuổi Zhou Junkai và một người họ hàng 26 tuổi mở ra một cửa hiệu, thuê về những thanh niên trẻ - những "người gắn mác dữ liệu". Họ làm việc cật lực suốt mùa hè.
Văn phòng của Công ty Công nghệ Jun Peng nằm trong khuôn viên một ngôi nhà vẫn giữ lối kiến trúc cổ của Trung Hoa, thuộc vùng ven đô. Bạn sẽ ngay lập tức mường tượng ra phim cổ trang Trung Quốc khi đưa mắt nhìn lên khu nhà rộng, cao 2 tới 3 tầng, với một sân vườn đằng sau vẫn đang được dùng để trồng rau củ.
Căn phòng có hơi người duy nhất bên trong là khu làm việc: khoảng một tá nam nữ thanh niên đang ngồi dán mắt vào màn hình máy tính. Giữa khung cảnh mờ lạnh của tháng Mười một, ánh sáng xanh tỏa ra từ màn hình và ánh sáng trắng mờ ảo của dãy đèn tuýp soi rõ từng gợn sương trong căn phòng thiếu ánh Mặt Trời.
Những người trẻ đang ngồi kia là "người gắn mác dữ liệu – data labeler". Họ ngồi liên tục 8 tiếng một ngày, đưa chuột bấm lên từng tập hình ảnh mình được giao, phân rõ ra đâu là hình nền, đâu là vật thể cụ thể xuất hiện. Các nhà nghiên cứu và phát triển trí tuệ nhân tạo giao cho họ một khuôn mẫu cụ thể để liệt kê từng thứ có trong ảnh. Sau khi đã được lọc thành từng phần, dữ liệu sẽ được gửi trả về để máy có thể học.
Ngành công nghiệp trí tuệ nhân tạo - tương lai của loài người đang sống trên lưng những người trẻ miệt mài click chuột trên màn hình máy tính.
Trí tuệ nhân tạo cần một lượng dữ liệu khổng lồ để học và nhận biết các khuôn mẫu dữ liệu, bất kể là hình ảnh, file âm thanh hay chữ viết: chúng có "nhận thức" khác với con người. Để một thuật toán nhận dạng biết được một quả táo chính là một quả táo, nó cần nhìn qua hàng ngàn cho tới hàng triệu tấm ảnh về quả táo ở mọi góc độ khác nhau.
Thế nhưng trí tuệ nhân tạo vẫn bị lừa rất dễ dàng. Một thử nghiệm năm 2016 cho thấy chỉ cần cho thêm yếu tố "nhiễu" mắt thường không nhìn thấy được vào ảnh, hệ thống đã nhận nhầm một cái xe bus thành một con đà điểu.
Những sai sót trên không ngăn được dòng tiền ào ạt như sông Trường Giang đổ vào ngành nghiên cứu trí tuệ nhân tạo. Bạn có thể nhận thấy rõ sự chuyển mình đó tại Hà Nam, nơi đặt trụ sở công ty của những "người gắn mác dữ liệu" vừa kể trên. Mới chỉ vài năm về trước nổi tiếng với nhà máy Foxconn, giờ đây đã lại nổi tiếng với một khía cạnh phát triển công nghệ khác: máy tính của Trung Quốc thông minh hơn một phần là nhờ người dân Hà Nam.
Năm 2017, các nhà đầu tư mạo hiểm Trung Quốc đổ tới 5 tỷ USD vào các startup AI, lần đầu tiên số tiền đầu tư nhiều hơn Mỹ. Chính phủ Trung Quốc đã coi đây là ngành trọng yếu, đưa ra những chính sách hậu đãi tốt với mong muốn xây dựng một tương lai xán lạn hơn. Dự tính ngành nghiên cứu AI của Trung Hoa sẽ trị giá 150 tỷ USD vào năm 2030.
Làn sóng phát triển AI lan ra từ các trung tâm công nghiệp, các thành phố lớn, nơi tập trung nhiều những công nghệ tiên tiến. Tới khi nó lan ra các vùng ven đô, làn sóng đã bớt hiện đại đi nhiều: những bước tiến vững chắc của AI còn dựa trên mồ hôi của những người làm việc một cách thủ công, phân loại và gắn mác từng loại dữ liệu nhận được. Các công ty nhỏ lẻ tập trung nhiều ở các vùng ngoại thành, thị trấn xa trung tâm.
Ý tưởng mở công ty của Junkai tới với anh sau một chuyến thăm quan Bình Đỉnh Sơn, thành phố cũng nằm trong tỉnh Hà Nam, cách xa chỗ anh ở khoảng vài tiếng di chuyển. Bắt tay cùng họ hàng và số vốn tiết kiệm khoảng 45.000 USD, họ mua về hơn chục dàn máy tính và thuê mặt bằng lập văn phòng. Theo những gì họ biết, văn phòng nhỏ là nơi duy nhất trong huyện Dân Quyền cung cấp dịch vụ "gắn mác dữ liệu".
"Bạn không biết tương lai sẽ mang lại điều gì, hoặc là tới thành phố lớn tìm việc, hoặc là trở thành một công nhân cổ cồn trắng để hàng ngày chen chúc trong phương tiện giao thông công cộng", Zhou Junkai bộc lộ về những quyết định ngày đầu khi ra trường. "Trong một vài ngành nhất định, để đứng lên vị trí số một, bạn phải hiểu biết nhiều, có kinh nghiệm và có học thức. Đó là những thứ chúng tôi không có".
Kể cả tốt nghiệp bằng cơ khí, anh không thể trở thành thợ máy ô tô ở bất cứ đâu. Chán nản, anh tìm về làm công nhân nhà máy nhưng cũng chỉ được một thời gian ngắn, anh bỏ việc. Công việc 14 tiếng/ngày khiến chàng trai trẻ bị bào mòn tuổi xuân.
Cùng lúc đó, tại thành phố Trịnh Châu thuộc tỉnh Hà Nam, có một ông chủ trẻ đưa ra lời nhận định: rất nhiều người đang đổ về ngành gắn mác dữ liệu. Anh Han Jinhao chạy theo xu thế, mở ra công ty Dianwokeji, thuê về tới hơn 100 người gắn mác dữ liệu.
"Đúng là công việc này thuộc cấp thấp, đầu vào rất dễ nhưng nó vẫn thuộc ngành công nghiệp trí tuệ nhân tạo", Han Jinhao nói. "Nên tôi nghĩ nếu chúng tôi bắt đầu từ đây, chúng tôi có thể bước từng bước chậm rãi tiến tới một thứ gì đó có giá trị hơn".
Zhao Mengyao, năm nay tròn 18 tuổi, là nhân viên mới trong ngành gắn mác dữ liệu. Cô bắt đầu làm việc tại công ty của Junkai hồi tháng Mười năm ngoái. Khi ghé qua văn phòng, tôi đang thấy cô vẽ nên những đường trắng đứt đoạn quanh các vật thể hiện hữu trong một bãi đổ xe. Bức ảnh hơi méo, không rõ chụp từ thiết bị gì, nhưng cô gái trẻ dễ dàng đưa chuột lần qua từng đường nét một cách chính xác. Khoảng 20 phút trôi qua, cô xong tấm ảnh đó, chuyển sang tấm tiếp theo trong bộ ảnh mình đang xử lý: vẫn bãi đỗ xe ấy, nhưng là một tấm ảnh chụp từ một góc camera khác.
Ngồi cạnh cô là một chàng trai trẻ đang nhìn chằm chằm vào chiếc váy cam có trên màn hình. Công việc giống y hệt Zhao Mengyao, vẽ từng đường trắng đứt đoạn quanh chiếc váy. Hết tấm này sang tấm khác.
Công việc trước đây của Mengyao là thợ trang điểm cho một studio chụp ảnh cưới, nhưng áp lực công việc đã khiến cô phải rời đi. Có những ngày cô phải dậy sớm từ 4 giờ sáng, chuẩn bị cho công việc không lúc nghỉ tới tận 7 giờ tối. Công việc hiện tại của cô dễ thở hơn nhiều: làm việc từ 8 giờ sáng tới 6 giờ trưa, với khoảng một tiếng rưỡi nghỉ trưa mỗi ngày – khoảng thời gian để cô và nhóm bạn làm cùng có thể chơi điện tử ngay trên máy tính văn phòng.
"Tôi nghĩ công việc này khá tốt. Làm việc ở đây thoải mái thời gian hơn nhiều", Zhao Mengyao cười nói.
Bảy nhân viên gắn mác dữ liệu khác tôi có cơ hội gặp gỡ kể rằng lương tháng của họ rơi vào khoảng 2.000 NDT tới 4.000 NDT, khoảng 6.850.000 VNĐ tới 13.700.000 VNĐ. Từng đó là tương đương với lương trung bình sau thuế của công nhân Trung Quốc hồi 2017.
"Tại Trịnh Châu, rất nhiều công việc tương tự với mức lương này", Wang Yushuang, một cậu nhân viên 25 tuổi của Dianwokeji nói với tôi.
Quy chuẩn để dạy AI cách nhận diện hình ảnh là sử dụng hình từ ImageNet, một cơ sở dữ liệu gồm 14 triệu ảnh, do giáo sư Li Fei-Fei và đội ngũ của cô lập nên. Cơ sở dữ liệu khổng lồ dựa trên Mechanical Turk của Amazon, khu chợ trung gian chào mời công việc gắn mác ảnh cho bất kì người dùng Internet nào.
Nhưng khi nhu cầu gắn mác ảnh, gắn mác dữ liệu ngày càng lớn, đủ ban ngành đang sử dụng trí tuệ nhân tạo để xử lý thông tin – từ xe tự lái cho tới chẩn đoán y học, ImageNet và Mechanical Turk không đáp ứng đủ lượng dữ liệu cần có.
Ví dụ, một hệ thống chẩn đoán AI cần phải phân biệt đâu là khối u và đâu là một nhãn cầu trong một hình chụp cắt lớp. Chúng không thể tự nhận diện được, mà phải dựa vào dữ liệu đầu vào, hướng dẫn nó đâu là khối u còn đâu là nhãn cầu. Để học được thông tin đó, nó sẽ cần rất nhiều ảnh được gắn mác dữ liệu rõ ràng. Việc đó thì cần tới bàn tay con người làm thủ công.
Đa số các startup AI chỉ có một vài nhân viên toàn thời gian, chủ yếu là các nhà khoa học dữ liệu. "Đó là công việc cần rất nhiều công sức", Peter Yang, người sáng lập công ty gắn mác dữ liệu Awakening Vector nói. "Bạn không thể mong những người học cao, lương cao như thế làm những công việc chân tay bận rộn được, nên bạn sẽ phải thuê ngoài".
Nhu cầu thuê ngoài ngày một cao, các công ty gắn mác dữ liệu theo đó mà gấp nhiều lần số lượng. Ta vẫn biết một khi tự động hóa, AI trở nên hiệu quả, số lượng công việc cho con người sẽ giảm xuống, tỉ lệ thất nghiệp tăng lên. Nhưng không có nghĩa công nghệ sẽ thay thế được hoàn toàn tất cả các đầu việc.
Lịch sử phát triển công nghiệp chỉ ra rằng với đi kèm sự xuất hiện của tự động hóa là bùng nổ số lượng công việc. James Bessen, giám đốc Nhóm hành động Nghiên cứu Công nghệ và Chính sách thuộc Đại học Boston, chỉ ra ví dụ của ngành dệt may.
Đầu thế kỷ 19, đa số người chỉ có một bộ quần áo do giá vải rất cao. Nhưng khi công nghệ phát triển, chi phí tạo ra quần áo giảm xuống, nhu cầu mua sắm tăng lên. Số lượng công việc liên quan tới quần áo nhiều hơn. Những người làm trong ngành dệt may vốn được coi là những cá nhân có kĩ năng thấp, nhưng khi toàn bộ ngành dệt may nở rộ và mở rộng, những công nhân mới – với kĩ năng vận hành máy móc phức tạp – bước vào ngành. Dù việc dệt may tại các nước lớn phải thuê nhân công từ các nước đang phát triển, số lượng nghề nghiệp ròng vẫn không đổi.
Ví dụ của ngày nay: giá thuê nhân công Trung Quốc là rẻ so với Mỹ.
Và với một số người, việc trở thành một phần ngành trí tuệ nhân tạo – ngành tạo dựng tương lai cũng làm họ ít nhiều hãnh diện. "Công việc của chúng tôi rất đơn giản, nhưng chúng tôi đang đóng góp một phần rất quan trọng, đang giúp robot học và nhìn được rất nhiều dữ liệu", cậu Wang Yushuang nói.
Chuyện gì xảy ra nếu một ngày nào đó, thuật toán có thể tự nhận dạng hết được mọi thứ? Liệu hàng chục ngàn người gắn mác dữ liệu sẽ thất nghiệp không?
Han Jinhao không mảy may lo lắng. "Nếu như máy móc có thể đạt được trình độ đó, có khi con người đã biến mất từ lâu rồi ấy chứ. Anh có nghĩ rằng loài người để cho một thứ gì đó không có sự sống điều khiển toàn bộ nhân loại không? Ta sẽ dạy nó cách phục tùng chúng ta. Nhưng tôi sẽ không dạy nó đủ thông minh để một ngày tôi phải phục vụ một cỗ máy đâu".
NỔI BẬT TRANG CHỦ
Google: Giải được bài toán 10 triệu tỷ tỷ năm chỉ trong 5 phút, chip lượng tử mới là bằng chứng về đa vũ trụ
Điều đáng ngạc nhiên hơn cả là nhiều người trên cộng đồng mạng thế giới lại đang đồng tình với kết luận của Google.
Gần 2025 rồi mà vẫn dùng USB để lưu công việc thì quả là lỗi thời