Xem bản thử nghiệm

Thay vì hàng nghìn lần huấn luyện, máy móc giờ có thể nhận ra sự vật chỉ sau một lần nhìn thấy

Nguyễn Hải , Theo Trí Thức Trẻ

Đây dù là một khả năng đơn giản của con người, nhưng luôn là một thách thức lớn với các thuật toán thị giác máy tính của trí tuệ nhân tạo.

Hầu hết chúng ta có thể nhận ra một ai đó sau khi nhìn thấy họ một hoặc hai lần. Nhưng những thuật toán cung cấp sức mạnh cho thị giác máy tính và nhận diện giọng nói cần đến hàng ngàn ví dụ như vậy để trở nên quen thuộc với một hình ảnh hay từ ngữ mới.

Nhưng các nhà nghiên cứu tại Google DeepMind, công ty con của Alphabet tập trung vào lĩnh vực trí tuệ nhân tạo, giờ đã tìm ra một giải pháp cho vấn đề này. Họ thực hiện một số tinh chỉnh thông minh cho thuật toán học sâu, nhằm cho phép nó có thể nhận ra các đối tượng trong hình ảnh và những chi tiết khác chỉ bằng một ví dụ duy nhất – một kỹ thuật được gọi là “học một lần.” Nhóm nghiên cứu đã chứng minh hiệu quả của kỹ thuật này trên một cơ sở dữ liệu lớn với các hình ảnh được gắn tag, cũng như chữ viết tay và ngôn ngữ.


Việc tốn thời gian xây dựng dữ liệu và huấn luyện máy móc làm xe tự lái chưa sẵn sàng ra mắt.

Việc tốn thời gian xây dựng dữ liệu và huấn luyện máy móc làm xe tự lái chưa sẵn sàng ra mắt.

Những thuật toán tốt nhất có thể nhận ra những chi tiết trên một cách ổn định, nhưng chúng đòi hỏi một lượng lớn dữ liệu, thường tốn kém thời gian và chi phí để xây dựng. Ví dụ một thuật toán được huấn luyện để phát hiện các ô tô trên đường, sẽ phải tiêu thụ hàng nghìn ví dụ để có thể hoạt động ổn định trên một chiếc xe không người lái.

Không những vậy, việc thu thập quá nhiều dữ liệu cũng không phải cách làm khả thi – ví dụ, khi cần dẫn đường đến một ngôi nhà không quen thuộc, người ta không thể dành ra hàng nghìn giờ đồng hồ để dậy cho robot nhận ra hình ảnh đó.

Khả năng nhận ra mọi thứ của máy tính phụ thuộc hệ thống học sâu, một loại mạng lưới thần kinh nhân tạo rộng lớn được huấn luyện bằng cách điều chỉnh độ nhạy của nhiều lớp giữa các bộ phận liên kết với nhau trong mạng lưới này. Các bộ phận này cũng tương tự như các nơ ron thần kinh trong bộ não người.

Những hệ thống như vậy cần phải thấy rất nhiều hình ảnh để có thể tinh chỉnh kết nối giữa các nơ ron thần kinh ảo này. Nhưng Oriol Vinyals, một nhà nghiên cứu tại Google DeepMind và đồng nghiệp của mình, đã tìm ra giải pháp cho vấn đề bằng cách bổ sung thêm một thành phần bộ nhớ vào hệ thống học sâu này.

Để chứng minh sự hiệu quả của giải pháp, nhóm nghiên cứu trình diễn khả năng của hệ thống thông qua một cơ sở dữ liệu với các bức ảnh được gắn nhãn, được gọi là ImageNet. Phần mềm vẫn cần thời gian để phân tích hàng trăm hạng mục (category) khác nhau của hình ảnh, nhưng sau đó, nó có thể học được cách nhận ra các đối tượng mới chỉ từ một hình ảnh – ví dụ một con chó.

Phần mềm này học một cách sâu sắc để nhận biết các đặc điểm làm cho hình ảnh trở nên độc đáo. Chỉ sau một lần nhìn thấy hình ảnh ví dụ, thuật toán đã có thể nhận ra các hình ảnh về loại chó với độ chính xác gần bằng những hệ thống ngốn dữ liệu thông thường.

Vinyals cho biết nghiên cứu này sẽ đặc biệt hữu ích nếu nó có thể nhận ra nhanh chóng ý nghĩa của một từ ngữ mới. Ông cho rằng, điều này có thể rất quan trọng với Google, khi nó cho phép hệ thống của hãng này nhanh chóng học được ý nghĩa của một thuật ngữ tìm kiếm mới.


Khả năng ngôn ngữ được cải thiện nhanh hơn.

Khả năng ngôn ngữ được cải thiện nhanh hơn.

Vẫn còn những nhóm khác cũng phát triển hệ thống học một lần, nhưng những phương pháp của họ thường không tương thích với các hệ thống học sâu. Ví dụ, năm ngoái, một dự án có tính chất học thuật đã sử dụng các kỹ thuật lập trình theo xác suất để cho phép thực hiện kỹ thuật học tập rất hiệu quả này.

Các hệ thống học sâu đang trở nên có nhiều khả năng hơn, đặc biệt với việc bổ sung thêm các cơ chế bộ nhớ này. Gần đây, một nhóm khác tại Google DeepMind đã phát triển một mạng lưới với bộ nhớ loại linh hoạt, để nó có thể thực hiện các tác vụ tương đối đơn giản – ví dụ, học cách điều khiển một hệ thống tầu điện ngầm, sau khi phân tích hàng loạt các biểu đồ mạng lưới đơn giản hơn.

Ông Sang Wan Lee, người lãnh đạo Phòng thí nghiệm về Não và Máy móc Thông minh tại Viện khoa học và Công nghệ Tiến bộ Hàn Quốc, cho biết: “Tôi nghĩ đây là cách tiếp cận rất thú vị, đem lại một phương pháp mới cho việc học một lần trên những bộ dữ liệu quy mô lớn như vậy. Đây là một đóng góp kỹ thuật cho cộng đồng AI, đó là điều các nhà nghiên cứu về thị giác máy tính đánh giá rất cao.”

Mặc dù vậy, nhiều người khác vẫn hoài nghi về tính hữu dụng của nó, khi họ chỉ ra nó vẫn khác biệt thế nào với việc học của con người. Theo ông Sam Gershman, trợ lý giáo sư tại Khoa khoa học về não người của Harvard, con người thường học bằng cách hiểu các thành phần làm nên hình ảnh, điều này cần đến các kiến thức về thế giới thực hay khả năng phán đoán tốt các đặc điểm bên ngoài. Ví dụ, “một chiếc Segway có thể trông hoàn toàn khác với một chiếc xe đạp hay một chiếc xe máy, nhưng nó được cấu tạo từ các bộ phận tương tự nhau.”

Theo cả hai ông, Gershman và Wan Lee, vẫn còn nhiều thời gian trước khi máy móc bắt kịp con người. “Chúng ta vẫn còn một khoảng cách xa so với việc tìm ra bí mật của con người với khả năng học một lần.” Wan Lee cho biết. “Nhưng đề xuất này rõ ràng đặt ra những thách thức mới đáng để nghiên cứu thêm.”

Tham khảo Technologyreview

Bình luận

NỔI BẬT TRANG CHỦ