Xác định vị trí của một bức ảnh là điều mà ngay cả con người cũng thấy khó khăn. Nhưng các nhà khoa học đang phát triển hệ thống AI có thể tìm ra điều đó.
- Tàu không người lái hoạt động như thế nào?
- Ở điểm xa xôi nhất trên Trái Đất, các nhà khoa học đã nghe thấy một âm thanh kỳ lạ với tần số cực thấp
- Tại sao chim kiwi lại tiến hóa không có cánh nhưng lại có khứu giác rất nhạy?
- Tại sao động cơ của một số xe tải ở phía dưới, trong khi một số khác lại ở phía trước người lái?
- 'Quái vật nhiều chân' trên mặt nước gây nghi ngờ về đột biến do ô nhiễm môi trường!
Trevor Rainbolt, 25 tuổi, là một chuyên gia nổi tiếng trong việc xác định địa điểm chụp ảnh, anh thường xuyên nhận được yêu cầu của cư dân mạng giúp tìm ra địa điểm chụp những bức ảnh cũ. Với khả năng phán đoán xuất sắc của mình, anh ấy đã giúp được rất nhiều người.
Rainbolt là một người chơi GeoGuessr chuyên nghiệp, một trò chơi đoán ảnh và sự nổi tiếng của anh đã khiến nhiều người biết đến trò chơi này. Kết quả xuất sắc này là do anh đã có quá trình rèn luyện lâu dài, anh ấy đã chơi trò chơi này hơn 10.000 giờ và có thể chơi bốn đến tám giờ một ngày.
Tuy nhiên, vào tháng 5 năm 2023, anh đã thua một AI được phát triển bởi ba sinh viên tốt nghiệp tại Đại học Stanford - AI này được phát triển trong khoảng hai tháng. Trong quá trình huấn luyện, nó đã đoán được quốc gia nơi bức ảnh được chụp với độ chính xác 92%. Điểm trung bình khi chơi GeoGuessr cao tới 4525 (trên 5000 điểm), đứng trong top 0,01% người chơi toàn cầu.
Giống như Rainbolt, ba nhà phát triển AI cũng là những người chơi GeoGuessr giàu kinh nghiệm. GeoGuessr là trò chơi đoán địa lý trực tuyến với khoảng 50 triệu người chơi, được phát triển vào năm 2013 bởi một kỹ sư phần mềm người Thụy Điển. Khi vào game, người chơi sẽ được đặt ngẫu nhiên ở một nơi nào đó trên Google Street View, sau đó đoán vị trí địa lý của mình dựa trên thông tin trên màn hình, cuối cùng người chơi cần đặt một chiếc đinh ghim ở một nơi nào đó trên bản đồ thế giới để đánh dấu vị trí mình đoán. Hầu hết các cầu thủ của trò chơi đều còn trẻ, một số game thủ xuất sắc nhất chỉ mới 14 tuổi.
Trên thực tế, vào năm 2022, một nhóm sinh viên 3 người đã tốt nghiệp tại Đại học Stanford đang theo học khóa học về trí tuệ nhân tạo "Deep Multitask and Meta Learning". Ba nhà phát triển này đều thích chơi GeoGuessr, vì vậy họ quyết định bắt đầu từ sở thích chung của mình và thử xem có có thể tạo ra một game thủ là trí tuệ nhân tạo tốt hơn con người hay không.
Tên dự án của họ là "Predicting Image Geolocations", viết tắt là PIGEON. Họ đã sử dụng mạng nơ-ron CLIP do OpenAI (cũng là nhà phát triển ChatGPT) sản xuất để hiểu và phân tích hình ảnh bằng cách đọc văn bản.
Sau đó, họ sử dụng hình ảnh của Google Street View để đào tạo hệ thống. Tập dữ liệu đào tạo chứa khoảng 500.000 hình ảnh của Google Street View. AI sẽ chia hình ảnh thành những ô vuông rất nhỏ để phân tích và rất giỏi trong việc chọn ra những ô vuông đặc biệt đó. Đối với AI, hình ảnh không chỉ là hình ảnh mà còn có thông tin văn bản tương ứng. Bằng cách tích hợp thông tin trực quan như tòa nhà, bố cục đường phố, thảm thực vật và địa danh vào hình ảnh cũng như các thông tin phụ trợ khác như điều kiện thời tiết, mùa và khí hậu, AI cũng có thể nhanh chóng dự đoán nơi ảnh sẽ được chụp, giống như người chơi là con người.
Mặc dù kích thước của tập dữ liệu tương đối nhỏ nhưng hệ thống AI cuối cùng hoạt động rất tốt, không chỉ có độ chính xác cao mà sai số cũng nhỏ hơn dự đoán của con người, có thể xác định vị trí trong phạm vi khoảng 40 km tính từ vị trí thực tế trong trận đấu với Renbolt.
Ở thời điểm hiện tại, các nhà phát triển đã tạo ra mô hình AI thứ hai có tên PIGEOTTO có thể dự đoán vị trí một bức ảnh được chụp chỉ bằng cách nhìn vào nó. PIGEOTTO được đào tạo về bộ dữ liệu gồm hơn 4 triệu bức ảnh từ Flickr và Wikipedia. Điều này cho phép nó học hỏi từ nhiều bối cảnh khác nhau trên toàn thế giới.
Đáng chú ý, PIGEOTTO là hệ thống đầu tiên có thể khái quát hóa tốt, nghĩa là nó có thể định vị những bức ảnh mới mà nó chưa được đào tạo trực tiếp.
Cả hai mô hình AI PIGEON và PIGEOTTO đều sử dụng một cách tiếp cận thông minh được gọi là học tập đa tác vụ. Điều này cho phép chúng học hỏi từ dữ liệu địa lý và chú thích ngoài ảnh.
Các thử nghiệm gàn đây cho thấy PIGEON tìm ra đúng vị trí trong phạm vi 25 km trong 40% thời gian khi phân tích cảnh ở Google Street View. Và PIGEOTTO đã đạt được kết quả kỷ lục trong các bài kiểm tra điểm chuẩn, giảm tới 50% sai số khoảng cách trung bình so với các hệ thống AI trước đây.
Mức độ chính xác này có thể mở ra những khả năng mới cho gắn thẻ địa lý hình ảnh, ứng dụng du lịch, phương tiện truyền thông xã hội, hệ thống định vị, v.v.
Nhưng với bất kỳ công nghệ mới nào cũng có khả năng bị lạm dụng. Các nhà nghiên cứu cảnh báo rằng các biện pháp bảo vệ cần được áp dụng để ngăn chặn việc sử dụng AI cho mục đích phi đạo đức. Tuy nhiên, nhìn chung, các hệ thống tiên tiến này chứng tỏ tiềm năng của AI trong việc xác định chính xác hình ảnh trên toàn cầu.
NỔI BẬT TRANG CHỦ
Nhà sáng lập TSMC nhận định về Intel: Sẽ tốt hơn nếu không cố chen chân vào mảng sản xuất chip, đáng lẽ nên tập trung vào AI
Morris Chang, nhà sáng lập TSMC, đã thẳng thắn nhận định chiến lược kinh doanh của Intel, cho rằng "Đội Xanh" đáng lẽ không nên bước chân vào lĩnh vực sản xuất chip và thay vào đó nên tập trung vào thị trường AI.
Chủ tịch Huawei tự hào khoe Mate 70 là điện thoại với chip 100% Made in China: "Tự chủ ngành bán dẫn đã trở thành hiện thực"