Xem bản thử nghiệm

Bước tiến mới về trí tuệ nhân tạo: hệ thống AI có thể tạo ra video từ một đoạn văn bản

Nguyễn Hải , Theo Trí Thức Trẻ

Cho dù đoạn video đó chưa đủ để tranh giải Oscar, nhưng hệ thống AI này còn có nhiều ứng dụng khác vượt ra ngoài phạm vi của Hollywood.

Thông thường để tạo ra các đoạn video, dù ngắn hay dài, luôn cần một chiếc camera và một người sử dụng nó. Thế nhưng điều đó có thể không còn đúng nữa khi giờ đây, chỉ với một đoạn text ngắn gọn mô tả lại khung cảnh cần quay phim là đủ để phần mềm dưới đây có thể tạo nên một đoạn phim. Dù bạn cũng không hy vọng đoạn phim này sẽ có chất lượng đoạt giải Oscar, nhưng nó sẽ rất hữu ích trong nhiều lĩnh vực khác, như giúp một nhân chứng dựng lại một vụ tai nạn hoặc tội ác.

Hiện tại các hệ thống AI đã quen thuộc với việc xác định nội dung của hình ảnh và dán nhãn chúng. Một số khác còn có thể tạo ra các hình ảnh từ những nhãn này. Nhưng tạo ra một hình ảnh từ một đoạn text và làm nó chuyển động như một đoạn phim lại là một bước tiến vô cùng lớn lao.

Hệ thống AI với thiết kế mô phỏng cách con người tạo ra nghệ thuật

Thuật toán mới là một dạng của máy học, nghĩa là nó phải được đào tạo. Đặc biệt đây lại là một mạng lưới thần kinh nhân tạo, hay một loạt các lớp với những phần tử điện toán nhỏ để xử lý dữ liệu theo cách tương tự như những nơ ron thần kinh trong bộ não.

Về cơ bản, hệ thống AI được đào tạo bằng các đoạn video với những hành động được gắn nhãn với các mô tả về hành động đó, ví dụ “chơi golf trên sân cỏ”. Trong quá trình đào tạo, phần mềm đánh giá hiệu suất của nó sau mỗi lần thử, và phản hồi của nó được luân chuyển qua hàng triệu các kết nối mạng lưới để tinh chỉnh cho các tính toán trong tương lai.

Theo nhóm nghiên cứu, hệ thống AI này có hai mạng lưới thần kinh nhân tạo. Một mạng lưới để tạo ra đoạn video, hoạt động theo hai giai đoạn với “thiết kế để mô phỏng cách con người tạo ra nghệ thuật.” Giai đoạn thứ nhất, hệ thống sử dụng đoạn text để tạo ra một “gist” (ý chính) của đoạn video, về cơ bản là một hình ảnh mờ của phần nền với một đốm màu mờ, nơi hoạt động chính diễn ra. Giai đoạn hai sử dụng cả gist này và đoạn văn bản để tạo ra một đoạn video ngắn.

Trong quá trình huấn luyện, một mạng lưới thứ hai đóng vai trò như một “bộ sàng lọc”. Nó xem đoạn video được tạo ra cùng với đoạn video thực tế để cải thiện sản phẩm tạo ra. Ví dụ với hoạt cảnh “đi thuyền trên biển”, mạng lưới sẽ xem nó cùng với một video thực tế về việc đi thuyền buồm trên biển, và nó được đào tạo để chọn ra một đoạn video thực tế. Phản hồi đó được đưa ngược lại cho mạng lưới đầu tiên để tạo ra đoạn video với độ chính xác có giới hạn cao hơn.

Các hình ảnh được tạo ra vẫn còn sạn như các đoạn băng VHS. Tuy nhiên, một thuật toán phân loại đơn giản sẽ phỏng đoán một cách chính xác hành động sắp xảy ra từ 6 lựa chọn có sẵn chỉ với khoảng nửa thời gian. Theo các nhà nghiên cứu, mạng lưới này cũng có thể tạo ra các đoạn video với những hành động vô nghĩa, ví dụ “đi thuyền trên tuyết” và “chơi golf tại bể bơi”.

Hiện tại, độ dài các đoạn video chỉ mới ở mức 32 khung hình – nghĩa là chỉ khoảng 1 giây – và kích thước chỉ bằng một con tem thư ở Mỹ, 64 x 64 pixel. Theo Yitong Li, nhà khoa học máy tính tại Đại học Duke ở Durham, Bắc Carolina, tác giả của nghiên cứu này, các đoạn video lớn hơn sẽ làm giảm độ chính xác. Bởi vì con người thường xuất hiện với các hình ảnh bị méo mó, do vậy, anh cho rằng, bước tiếp theo sẽ sử dụng các mô hình khung xương người để cải thiện chuyển động.

Một AI có thể hiểu sâu sắc hơn thế giới hình ảnh

Theo Tinne Tuytelaars, nhà khoa học máy tính tại đại học Katholieke Universiteit Leuven của Bỉ, người đã thực hiện một nghiên cứu về dự đoán video của riêng mình cho rằng, các ứng dụng của AI này sẽ vượt xa ra khỏi Hollywood. Ví dụ nó cho phép nén video tốt hơn nếu một đoạn phim có thể được lưu trữ bằng một đoạn văn bản mô tả ngắn.

Nó cũng có thể tạo ra dữ liệu huấn luyện cho các thuật toán máy học khác. Ví dụ, các đoạn clip thực tế sẽ giúp các ô tô tự lái chuẩn bị trước cho những tình huống nguy hiểm mà chúng không thường gặp. Và việc hiểu sâu sắc thế giới hình ảnh có thể tạo nên các ứng dụng hữu ích, từ việc trọng tài đến giám sát. Theo nhà nghiên cứu Hamed Pirsiavash, nhà khoa học máy tính tại Đại học Maryland, chúng có thể giúp một ô tô tự lái dự đoán đường đi một chiếc xe máy, hoặc huấn luyện một robot gia đình mở tủ lạnh.

Tham khảo Technologyreview

Bình luận