Làm thế nào máy tính biết chúng đang "nhìn thấy" cái gì?

Nguyễn Hải , Theo Trí Thức Trẻ

Các camera dù có bao nhiêu chấm đi nữa cũng mới chỉ giúp cho máy tính nhìn, chứ không phải là thấy. Nhưng nhờ các kỹ thuật dưới đây, máy tính mới thực sự "nhìn thấy" điều gì đó.

Các máy tính đã trở nên tiến bộ đến nỗi chúng có thể nhận ra nội dung trong những bức ảnh mà bạn chụp với chiếc iPhone hay Android của mình. Điều đó nghĩa là trong tương lai, bạn có thể dễ dàng tìm thấy một bức ảnh ngay lập tức, bằng cách mô tả nó cho máy tính. Tất cả nhờ vào sự tiến bộ của kỹ thuật học sâu để đào tạo máy tính có thể nhận diện được các kiểu hình dạng và vật thể trong những hình ảnh thông thường.

Các công ty như Google và Microsoft đã có những cỗ máy AI tiên tiến, khi chúng có thể phân biệt được các phần tử khác nhau trong một bức ảnh – ví dụ như những hình ảnh dưới đây.

Gần đây, trang Technology Review của MIT đã mang đến một cái nhìn sâu hơn về thế nào là học sâu và mạng lưới thần kinh nhân tạo nghĩa là gì, cũng như đã giải thích tại sao các thuật toán có khả năng đào tạo lại là nguyên nhân AI của Facebook nhận ra bạn bè của bạn trong các bức ảnh khi bạn upload lên mạng xã hội này.

Mạng lưới thần kinh nhân tạo biến kỹ thuật học sâu trở thành điều có thể. Chúng được sắp xếp vào trong một trật tự các lớp (layer), để có thể giải thích dữ liệu thông qua một chuỗi các lớp đó. Mỗi lớp được dành riêng để xác định những nét nổi bật nhất định nào đó trong bức ảnh, đó là cách mà cuối cùng máy tính sẽ biết được nó đang nhìn vào cái gì.

Những mạng lưới thần kinh này được nạp hàng triệu bức ảnh trong suốt quá trình huấn luyện trước khi có thể thực sự nhận ra bất cứ thứ gì trong những bức ảnh người dùng upload lên mỗi ngày.


Những lớp đầu tiên sẽ phát hiện các mô hình đơn giản như thế này, mầu sắc và lớp bóng mờ.

Những lớp đầu tiên sẽ phát hiện các mô hình đơn giản như thế này, mầu sắc và lớp bóng mờ.

Những lớp đầu tiên thường phát hiện ra các mô hình rất đơn giản, như màu sắc và các lớp bóng mờ của một bức ảnh. Ở lớp tiếp theo, máy tính sẽ sử dụng những gì nó đã được học từ lớp trước để nhìn vào những mảng lớn hơn của một bức ảnh bằng cách tìm các mô hình bổ sung như, các góc, các sọc mầu và các mắt lưới. Lớp thứ ba, máy tính có thể phát hiện những phần của các vật thể, và phân biệt giữa hai phần tử, trông có thể tương tự nhau so với một máy tính. Các lớp cao hơn sẽ trở nên phức tạp hơn, khi chúng có thể nhận ra sự khác biệt giữa hai vật thể, hai loài động vật và những con người.

Khi loại phần mềm hình ảnh này phát triển hơn nữa, nó có thể được ứng dụng trong rất nhiều lĩnh vực khác nhau, bao gồm robot, ô tô tự lái và dược phẩm.

Tham khảo BGR