Baidu ra mắt SwiftScribe, ứng dụng chuyển thể giọng nói thành văn bản sử dụng AI, còn tốt hơn cả Google, Microsoft
Trưởng ban dự án cho biết ứng dụng này sẽ tiết kiệm đến 40% thời gian so với việc chuyển thể giọng nói thành văn bản theo cách thủ công.
Baidu, công ty vận hành bộ máy tìm kiếm lớn nhất Trung Quốc, đã công bố sự ra mắt của SwiftScribe trong hôm nay. Đây là một ứng dụng nền web giúp mọi người chuyển từ giọng nói thành văn bản từ đoạn ghi âm, và điểm đặc biệt là SwiftScribe dùng trí thông minh nhân tạo (AI) để làm điều đó.
Trong vài năm trở lại đây, Baidu đã dùng phần mềm DeepSpeech cho việc nhận dạng giọng nói. Vào năm trước, công ty đã giới thiệu bàn phím Android có tên TalkType sử dụng DeepSpeech để hỗ trợ người dùng nhập liệu nhanh hơn cách truyền thống. Giờ đây, công ty đang chuẩn bị ra mắt một ứng dụng khác có sử dụng DeepSpeech cho việc nhập liệu.
Ngoài Baidu, các ông lớn công nghệ khác như Amazon, Apple, Google và Microsoft cũng nghiên cứu và phát triển việc nhận dạng giọng nói, tuy nhiên 4 công ty này vẫn chưa có ứng dụng nào dịch thuật một văn bản dạng dài cả, mà chỉ dịch từng đoạn ngắn một.
Với SwiftScribe, một khi người dùng tải lên đoạn ghi âm có định dạng .wav hay mp3, hệ thống sẽ xử lí và đưa ra kết quả. Theo trưởng ban dự án - bà Tian Wu - cho biết, tốc độ xử lí trung bình của SwiftScribe là khoảng 10 giây cho đoạn ghi âm 30 giây, và hệ thống có khả năng xử lí những đoạn ghi âm dài 1 giờ, nhưng nó sẽ tốn khoảng 20 phút để xử lí.
Sau khi xử lí, người dùng sẽ có khả năng tùy chỉnh lại đoạn văn bản đã được ghi lại, ví dụ như thêm dấu câu, chỉnh sửa lỗi sai, ngữ pháp, v.v... Ứng dụng có khả năng điều chỉnh tốc độ và lúc ngừng nghỉ của đoạn thu âm.
Được biết, SwiftScribe được hình thành vì bà Tian Wu đã phải dịch thuật nhiều đoạn phỏng vấn trong lúc đang theo học tại trường Đại học California. "Tiếng anh không phải là ngôn ngữ mẹ đẻ của tôi, nên có lúc tôi phải dành ra 10 giờ để dịch thuật và ghi lại đoạn ghi âm dài 1 giờ. Bình thường thì cần phải tốn 4 đến 6 giờ để một người có kinh nghiệm ghi lại đoạn ghi âm dài 1 giờ", Wu cho biết.
Wu cho biết SwiftScribe sẽ giúp mọi người dịch thuật và ghi lại đoạn ghi âm nhanh hơn 40% so với cách thủ công, từ đó tiết kiệm thời gian và công sức hơn. Sản phẩm này được sinh ra cho những người chuyên dịch thuật hay làm việc trên máy tính, cho nên hiện dịch vụ này chỉ có mặt trên nền web mà thôi. Ngoài ra, SwiftScribe còn là một công cụ hữu ích cho các phóng viên và nhà sử học.
Hiện tại, Baidu đang cung cấp dịch vụ SwiftScribe miễn phí, tuy nhiên bà Wu cho biết có thể sẽ thương mại hóa nó trong tương lai. Trong thời gian sắp tới, ứng dụng SwiftScribe có thể bổ sung thêm nhiều tính năng mới, ví dụ như tự động thêm dấu câu, chuyển thể và ghi lại các đoạn hội thoại ở các tập tin dạng video, đồng thời hỗ trợ nhiều loại tập tin ghi âm hơn.
Tham khảo VentureBeat
NỔI BẬT TRANG CHỦ
iPhone 14 Pro Max phát nổ khiến người dùng bị thương
Vụ việc đang tiếp tục được điều tra, làm rõ.
Tại sao nhân loại lại cần đến máy tính lượng tử, chúng được dùng để làm gì?