Liệu trí tuệ nhân tạo có thể biết được bạn nói gì chỉ qua cử động môi?

    Nguyễn Hải,  

    Nếu làm được như vậy, liệu chúng có thể được sử dụng để theo dõi mọi phát ngôn của chúng ta?

    Đọc môi là một công việc phức tạp. Khả năng của mỗi người rất khác nhau, nhưng trung bình hầu hết mọi người chỉ nhận ra một trong mười từ khi quan sát chuyển động môi của ai đó. Ngay cả độ chính xác của những người tự nhận là chuyên gia cũng rất khác nhau – gần như chắc chắn không có ai là nhà bác học về đọc môi.

    Tuy nhiên, hiện tại một số nhà nghiên cứu cho rằng các kỹ thuật AI như học sâu có thể giúp giải quyết vấn đề này. Dù sao đi nữa, các phương pháp AI vốn tập trung vào việc tiêu thụ một lượng lớn dữ liệu để tìm ra các mô hình chung, đã giúp cải thiện khả năng nhận dạng giọng nói với mức độ chính xác gần bằng con người. Vậy tại sao những phương pháp này không thể làm được điều tương tự với kỹ năng đọc môi?

    Chính xác hơn con người, nhưng dữ liệu thử nghiệm vẫn rất hạn chế

    Các nhà nghiên cứu từ Phòng thí nghiệm AI thuộc Đại học Oxford hứa hẹn sẽ tạo ra một bước tiến lớn trong lĩnh vực này, khi tạo ra một chương trình đọc môi mới sử dụng kỹ thuật học sâu. Với tên gọi LipNet, phần mềm này có thể làm tốt hơn hẳn những người đọc môi nhiều kinh nghiệm.

    Trong các bài kiểm tra nhất định, phần mềm đạt đến độ chính xác đến 93,4%, nhưng những người đọc môi nhiều kinh nghiệm chỉ đạt được độ chính xác 52,3%. Và dù mới chỉ trong giai đoạn đầu của việc phát triển, phần mềm vẫn cực kỳ nhanh – nó có thể tạo ra các đoạn văn bản từ đoạn video im lặng gần như theo thời gian thực.

    Tuy nhiên, trước khi chúng ta chấp nhận thua cuộc khi so sánh với cỗ máy trí tuệ nhân tạo này, nghiên cứu từ Đại học Oxford có một số giới hạn nghiêm trọng. Đầu tiên, hệ thống được đào tạo và thử nghiệm trong một bộ dữ liệu nghiên cứu, còn được gọi là GRID. Đây là một bộ sưu tập của hàng chục nghìn các đoạn video ngắn từ 34 tình nguyện viên, liên tục đọc các câu vô nghĩa cũng như các chú thích.

    Mỗi đoạn clip chỉ có độ dài 3 giây, và mỗi câu đều theo một mẫu như sau: động từ ra lệnh, màu sắc, giới từ, chữ cái, chữ số, trạng từ. Ví dụ các câu sẽ như sau: “set blue by A four please”, hay “place red at C zero again.” Số lượng các từ trong những mẫu câu này cũng rất hạn chế: chỉ có 4 động từ mệnh lệnh và 4 màu sắc khác nhau được sử dụng.

    Vì vậy, điều đó làm các nhà nghiên cứu trong lĩnh vực này cho rằng những phát hiện của tài liệu trên đã bị thổi phồng quá mức, đặc biệt là khi một tweet chứa đường dẫn đến đoạn video của các nhà nghiên cứu (dưới đây) đã làm những người quá mẫn cảm cho rằng, công trình này đã biến việc đọc môi trở thành “không còn gì bí mật.”

    Khả năng đọc môi đáng kinh ngạc của LipNet.

    Chắc chắn nghiên cứu này chưa làm được điều đó. Trả lời phỏng vấn của The Verge, hai trong số các nhà nghiên cứu của công trình này, Yannis Assael và Brendan Shillingford đều sẵn sàng thừa nhận rằng họ đang làm việc với “số lượng từ ngữ và ngữ pháp rất hạn chế,” nhưng họ cho rằng điều này là do sự hạn chế của các dữ liệu hiện có. “Bộ dữ liệu còn tương đối nhỏ, nhưng nó là một dấu hiệu tốt cho thấy những gì chúng ta có thể làm được nếu có một bộ dữ liệu lớn hơn nhiều.” Assael cho biết.

    Đừng quá lo về việc máy móc theo dõi con người

    Đồng thời cả Assael và Shillingford đều nhấn mạnh rằng nghiên cứu của họ không thể ứng dụng vào việc giám sát mọi người trong thế giới thực, đơn giản bởi vì việc đọc môi đòi hỏi bạn phải nhìn thấy chuyển động lưỡi của chủ thể - điều này có nghĩa là đoạn video phải được hướng thẳng và rõ nét về phía người nói để có được kết quả tốt.

    Theo Assael, “Đó là một điều bất khả thi về mặt kỹ thuật, hoặc ít nhất nó rất rất khó,” để có thể ứng dụng bất kỳ phần mềm đọc môi nào vào việc giám sát. Anh cũng bổ sung thêm rằng, tốc độ khung hình cũng là một yếu tố quan trọng, trong khi điều này thường bị bỏ qua với những chiếc camera CCTV.

    Nếu bạn có thể đặt một chiếc camera ngay trước mặt ai đó để có góc quay tốt, chắc chắn bạn cũng có thể đặt một chiếc micro hướng về phía họ để ghi âm, mà không cần đến phần mềm này.” Assael cho biết. (Về mục đích giám sát, Assael nhấn mạnh rằng, cho dù một trong những người giám sát dự án này đã làm việc với DeepMind, bộ phận AI của Google, nhưng bản thân công ty này lại không hứng thú với sự phát triển của LipNet).

    Thay vào đó, cả hai nhà nghiên cứu nghĩ rằng, AI đọc môi này sẽ rất hữu ích với những người mất khả năng nghe, đặc biệt trong môi trường ồn ào, nơi các máy tính khó có thể phân tích được âm thanh. Ví dụ, mọi người có thể đeo một camera tích hợp trong một chiếc kính mắt để có thể ghi hình một cách rõ ràng người đang nói chuyện với họ ở phía trước, và một phần mềm tương tự LipNet có thể dịch đoạn hội thoại theo thời gian thực, và nạp nó vào tai nghe.

    Bất cứ khi nào bạn có phần mềm nhận dạng giọng nói và một camera, chúng tôi đều có thể cải thiện khả năng nghe.” Assael cho biết. Ngoài ra, anh cũng đề cập đến tiềm năng ứng dụng khả năng đọc chính tả một cách im lặng này cho Siri hay Google Assistant. Do vậy, trong tương lai, có lẽ những người không thích việc nói chuyện với những chiếc máy tính, sẽ chỉ cần để chúng đọc được chuyển động môi của họ.

    Tham khảo TheVerge

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ