Không cần giỏi ngoại ngữ, người dùng giờ có thể nhờ AI của Microsoft 'nói hộ' ở đủ thứ tiếng, giọng nói cũng y hệt 'chính chủ'
Với những tiến bộ gần đây trong về mặt công nghệ, các nhà nghiên cứu chắc chắn đã đưa AI đi xa hơn cho phép người dùng giao tiếp bằng tiếng nước ngoài bằng giọng nói của chính họ, ngay cả khi họ không nói được ngôn ngữ đó.
- Tưởng đùa mà thật: Elon Musk không sa thải nhân viên mà dự kiến ‘phát thêm' mỗi người 33 triệu đồng/tháng, chuyện gì đây?
- Xe Model Y mới mua vài ngày bất ngờ 'rụng' vô lăng khi đang chạy, Tesla lập tức bị điều tra
- ‘Cha đẻ’ ChatGPT rót khoản tiền khủng hơn 4 nghìn tỷ đồng, chuẩn bị ra mắt ‘công nghệ mới’ giúp con người sống thọ thêm 10 năm
Đầu năm nay, tỷ phú Bill Gates đã khẳng định AI sẽ là tâm điểm lớn nhất của ngành công nghệ, và sẽ mang lại những thay đổi lớn nhất trong những năm tới.
Trên thực tế, ngay khi Microsoft đang 'thắng lớn' nhờ phi vụ đầu tư vào OpenAI – cha đẻ của ChatGPT, các nhà nghiên cứu của tập đoàn công nghệ này vẫn không ngủ quên trên chiến thắng. Thay vào đó, Microsoft tiếp tục đầu tư mạnh vào các dự án AI trong các lĩnh vực khác.
Vào tháng 1 năm nay, Microsoft đã tiết lộ những tiến bộ đã đạt được trên dự án AI có khả năng chuyển văn bản thành giọng nói, Vall-E. Mặc dù đã tồn tại nhiều công cụ AI khác ở cùng một lĩnh vực, công nghệ AI sắp ra mắt của gã khổng lồ công nghệ có trụ sở tại Redmond sẽ cho phép người dùng nói tiếng nước ngoài bằng chính giọng nói của họ.
Microsoft gọi VALL-E là "mô hình ngôn ngữ codec thần kinh" và nó được xây dựng dựa trên công nghệ có tên EnCodec mà Meta đã công bố vào tháng 10 năm 2022.
VALL-E cũng đã được đào tạo trên bộ dữ liệu LibriLight, được tạo bởi Meta. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh từ hơn 7.000 người nói, hầu hết được lấy từ sách nói thuộc phạm vi công cộng của LibriVox. Để VALL-E tạo ra kết quả tốt, giọng nói trong mẫu ba giây phải khớp chặt chẽ với giọng nói trong dữ liệu huấn luyện.
Không giống như các phương thức chuyển văn bản thành giọng nói khác, vốn thường tổng hợp giọng nói bằng cách điều khiển dạng sóng điều khiển waveforms (Tạm dịch: Dạng sóng - hình ảnh đại diện cho tín hiệu âm thanh hoặc bản ghi âm) để tạo giọng nói, các nhà nghiên cứu của Microsoft đã cho AI khả năng tạo codec âm thanh riêng biệt từ lời nhắc bằng văn bản và âm thanh.
Nói cách khác, nó phân tích cách một người phát âm, chia thông tin đó thành các thành phần riêng biệt (được gọi là "token") nhờ EnCodec và sử dụng dữ liệu đào tạo để khớp với những gì nó "biết" về âm thanh của giọng nói đó.
Nhóm cũng có thể giảm thời lượng lời nhắc âm thanh xuống chỉ còn ba giây mà vẫn có được giọng nói chính xác và phù hợp với giọng nói gốc của người dùng.
Với những tiến bộ gần đây trong về mặt công nghệ, các nhà nghiên cứu chắc chắn đã đưa AI đi xa hơn cho phép người dùng giao tiếp bằng tiếng nước ngoài bằng giọng nói của chính họ, ngay cả khi họ không nói được ngôn ngữ đó. Điều này có thể giúp ích rất nhiều trong việc giúp mọi người giao tiếp xuyên biên giới hiệu quả hơn, giảm bớt các rào cản trong giao tiếp. Như đã thấy trong đoạn clip trên, AI cũng có khả năng mô tả chính xác nhiều cảm xúc trong giọng nói, khiến nó trở nên chân thực hơn, mang tới cảm giác 'người' hơn là 'máy'.
Mặc dù vậy, độ chân thật của AI trong việc 'giả giọng' cũng chính là con dao hai lưỡi. Trong bối cảnh ngày càng nhiều đối tượng xấu sử dụng các công cụ tạo giọng nói bằng AI để mạo danh và lừa đảo, điều này đặt ra nhiều câu hỏi về việc liệu VALL-E có bị sử dụng sai mục đích hay không, và làm thế nào để có chế tài quản lý hiệu quả.
Bản thân Microsoft cũng nhận thức rõ về những nhược điểm và khả năng đối tượng xấu lạm dụng công nghệ này. Đây có thể là lý do vì sao công cụ này chưa được phát hành rộng rãi tới công chúng.
Không chỉ Microsoft, nhiều công ty khác cũng đang rất hứng thú trong lĩnh vực tạo giọng nói bằng AI. Gần đây nhất, Google được cho là cũng đang phát triển một dự án AI đầy tham vọng của mình có thể giúp người dùng dịch hơn 1.000 ngôn ngữ được sử dụng trên toàn cầu.
Tham khảo InterestingEngineering
NỔI BẬT TRANG CHỦ
Samsung và cuộc cách mạng AI: Hệ sinh thái toàn diện từ TV đến điện thoại di động đã thay đổi đời sống của người tiêu dùng như thế nào?
Với chiến lược toàn diện, Samsung đã sẵn sàng cho một cuộc cách mạng công nghệ tiếp theo, nơi AI đóng vai trò trung tâm. “Ông lớn" Hàn Quốc chứng minh trí tuệ nhân tạo không chỉ là một tính năng trong các thiết bị, mà còn là cốt lõi trong chiến lược đổi mới của họ.
Nhà sáng lập TSMC nhận định về Intel: Sẽ tốt hơn nếu không cố chen chân vào mảng sản xuất chip, đáng lẽ nên tập trung vào AI