Công nghệ nhận diện giọng nói đã lên tầm cao mới: không chỉ biết mọi người đang nói gì, nó còn biết ai đang nói

Ngocmiz , Theo Trí Thức Trẻ

Công nghệ nhận diện giọng nói chưa từng có dưới đây không chỉ giúp bạn chép lại toàn bộ lời thoại của người nói mà còn có thể phân biệt được ai là người cất giọng.

Web app mới này có tên Trint – công cụ có thể lắng nghe giọng của hai người trở lên rồi viết lại những lời họ nói và ghi lại ai nói đoạn nào. Không giống Google Talk hay Siri, Trint được thiết kế để chép lại cả những đoạn text dài.

Công nghệ của Trint còn rất mới nhưng có thể sẽ mở ra một kỷ nguyên mới cho các loại hình truyền thông không chữ – chẳng hạn như video hay podcast – bằng cách khiến cho cả người và các cỗ máy tìm kiếm có thể tìm ra chúng. Mọi người cũng có thể đọc lướt podcast hay video khi không có điều kiện và thời gian theo dõi, các phóng viên, nhà báo cũng tiết kiệm được vô khối thời gian ghi lại lời thoại trong các cuộc phỏng vấn.

Công nghệ chuyển giọng nói thành văn bản từng được nhiều người theo đuổi nhưng chưa đạt được nhiều thành công do tỷ lệ chuẩn xác chưa cao. Các hãng truyền thông hiện nay cũng liên tục sản xuất nội dung dạng video nhưng chưa được tối ưu hóa để công cụ tìm kiếm có thể tìm ra. Chính vì vậy mà công nghệ transcript này rất có thể sẽ có nhiều tiềm năng lớn.

Thuật toán chép transcript của Trint xử lý các đoạn text ngay trên màn hình soạn thảo trong trình duyệt, đồng thời gắn luôn phần chữ đang viết với đoạn audio đang nhắc đến trong file ghi âm. Tuy độ chính xác chưa thể đạt đến 100% nhưng ứng dụng vẫn cung cấp được một đoạn text đủ gãy gọn để có thể tìm và chỉnh sửa lại. Với mức giá 15 USD/giờ, mức giá của Trint vẫn thấp hơn nhiều đối thủ như 3Play hay Casting Words bởi hoàn toàn sử dụng máy móc chứ không có sự can thiệp của con người.

Công cụ này dự kiến sẽ là sản phẩm yêu thích của các hãng truyền thông cũng như nhà báo tự do. Chính Jeff Kofman, CEO của Trint cũng thừa nhận rằng việc dành hàng nghìn giờ ngồi chép lại các bài nói chuyện, hội thảo, phỏng vấn,… trong suốt hơn 3 thập kỷ làm báo đã thôi thúc anh thiết kế một công cụ tự động hóa quy trình này.

Tham khảo Wired