Công nghệ nhận dạng giọng nói của Microsoft đánh bại một nhóm chuyên gia về khả năng phiên dịch

    Chíp,  

    Đây là một cột mốc quan trọng và mang lại cho Microsoft một nền tảng âm thanh vững chắc để đi từ phiên dịch tới việc hiểu ý nghĩa của những gì đang được nói.

    Tháng 10/2016 đánh dấu một cột mốc quan trọng với trí tuệ nhân tạo khi Microsoft tuyên bố rằng hệ thống của họ có thể dịch một cuộc điện thoại ngang bằng hoặc thậm chí tốt hơn con người.

    Tuy nhiên, dù hệ thống của Microsoft mắc ít lỗi dịch thuật hơn so với một phiên dịch viên thông thường, nó vẫn không thể vượt qua một nhóm chuyên gia phiên dịch được đào tạo bài bản. Do đó, nhóm nghiên cứu đã tiếp tục phát triển hệ thống với sứ mệnh: Giảm tỷ lệ lỗi xuống thấp hơn mức mà một nhóm chuyên gia có thể mắc.

    Hiện tại, Microsoft đã làm được điều này. Trong một tuyên bố trên blog, Xuedong Huang, trưởng nhóm nghiên cứu giọng nói của Microsoft Research, đã thông báo rằng hãng này đã vượt qua rào cản kể trên.

    Đó là một cột mốc quan trọng, Huang viết. Và nó tạo ra một nền tảng âm thanh vững chắc cho công ty để từ phiên dịch tiến tới hiểu ý nghĩa của những gì đang được nói. Nhận dạng giọng nói là một thành phần cơ bản trong quá trình xây dựng một AI mạnh mẽ hơn.

    "Phát triển từ việc nhận thức được tới việc hiểu giọng nói là rào cản lớn tiếp theo mà công nghệ giọng nói cần vượt qua", Huang viết.

    Hệ thống nhận dạng giọng nói của Microsoft đã được cải tiến một cách nhanh chóng. Tính chính xác của khả năng phiên dịch được đánh giá trên tỷ lệ lỗi.

    Theo Switchboard, tỷ lệ lỗi của Microsoft vào tháng 9/2016 là 6,3%, đồng nghĩa với việc cứ 100 từ hệ thống xác định sai hơn 6 từ. Một phiên dịch viên trung bình có tỷ lệ lỗi 5,9% và một nhóm chuyên gia được đào tạo cẩn thận sai khoảng 5,1% số từ.

    Tới tháng 10, Microsoft đã giảm tỷ lệ lỗi xuống bằng phiên dịch viên trung bình và nay họ đã vượt qua nhóm thứ hai.

    Đây là thành công vượt dự kiến của công ty. Năm 2015, Huang chia sẻ với Business Insider về việc xây dựng một hệ thống có thể vượt qua khả năng phiên dịch của con người trong bốn hoặc năm năm tới. Và chưa đầy hai năm sau, Microsoft đã thực hiện được kế hoạch của mình.

    Dẫu vậy vẫn còn những thách thức cần vượt qua. Hệ thống phiên dịch của Microsoft đạt được kết quả này một phần nhờ dịch giọng nói được phát ra từ một điện thoại cố định với chất lượng ổn định. Tiếp theo, hệ thống cần phiên dịch chính xác khi nghe giọng nói phát ra từ kết nối không ổn định hoặc một chiếc máy bán hàng của McDonalds.

    Công nghệ giọng nói "vẫn còn nhiều thách thức cần giải quyết, chẳng hạn như đạt được khả năng nhận ra giọng nói trong môi trường ồn ào với micro ở khoảng cách xa, nhận ra những điều được nhấn mạnh trong giọng nói hoặc phong cách và ngôn ngữ dù chỉ được huấn luyện bởi lượng dữ liệu hạn chế", Huang viết.

    Theo Business Insider

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ