Hệ thống AI mới của Baidu có thể mô phỏng 2500 giọng nói khác nhau trên thế giới

Z-Lion,

Baidu đã chính thức trình làng DeepVoice 3 - hệ thống AI mô phỏng giọng nói mới nhất của hãng, mở ra rất nhiều tiềm năng cho các lĩnh vực công nghệ trong tương lai.

Đầu năm nay, Baidu - “gã khổng lồ” trong công nghệ tìm kiếm đến từ Trung Quốc, đã cho ra mắt một hệ thống AI mới với tên gọi DeepVoice. Hệ thống này sử dụng kĩ thuật trí thông minh nhân tạo phổ biến nhưng rất cao cấp để có thể chuyển đổi văn bản thành giọng nói.

Phiên bản đầu tiên của DeepVoice có khả năng tạo ra những câu nói ngắn gọn và rất khó để phân biệt với giọng nói thật của con người. Hệ thống này phải tốn hàng giờ đồng hồ để bắt chước được giọng nói của một người, và chỉ có thể học được một giọng tại một khoảng thời gian nhất định.

Vào tháng 5 vừa qua, Baidu tiếp tục trình làng DeepVoice 2 với những cải tiến vượt bậc so với người tiền nhiệm. Cụ thể, hệ thống này có thể giả giọng bất cứ ai chỉ sau nửa giờ đồng hồ “luyện tập” và đặc biệt hơn là khả năng “học” đến hàng trăm giọng nói khác nhau trên thế giới.

Hệ thống AI DeepVoice của Baidu ngày càng được hoàn thiện hơn.

Mới đây nhất, vào ngày 24/10, phiên bản thứ ba và cũng là phiên bản cuối cùng của DeepVoice cũng đã ra mắt. Baidu tuyên bố hệ thống AI của họ có thể mô phỏng 2500 giọng nói khác nhau và cũng chỉ mất nửa tiếng để học mỗi chất giọng mà thôi.

Baidu cho biết: “Sở hữu một hệ thống với khả năng tạo ra nhiều tiếng nói khác nhau sẽ mở toang cánh cửa đến những lĩnh vực khác chưa từng ai khám phá được. Ví dụ, mỗi nhân vật trong một cuốn tiểu thuyết dạng audio hay trong một trò chơi điện tử nào đó sẽ có giọng nói cho riêng mình. Nhờ vậy, trải nghiệm của người dùng cũng được nâng cao lên rất nhiều”.

Tuy nhiên, nhiều người cho rằng những giọng nói mà DeepVoice 3 tổng hợp lại nghe rất không tự nhiên, không hề giống giọng con người như hai người tiền nhiệm. Baidu lập tức lên tiếng thanh minh: “Nếu chỉ muốn tạo ra một hay hai loại chất giọng như các phiên bản trước đây thì DeepVoice 3 đã làm rất tốt rồi. Chất lượng sản phẩm của DeepVoice 3 hoàn toàn tự nhiên, giống con người và sẵn sàng để tích hợp cho các trợ lý ảo trong thời gian tới”.

Baidu khẳng định DeepVoice 3 đã sẵn sàng đi vào hoạt động.

Mục đích cuối cùng của Baidu chính là tạo ra một hệ thống làm chủ được sắc thái đa dạng của rất nhiều ký tự cũng như giọng nói khác nhau trên thế giới. Hiện tại, 2500 là con số giới hạn mà DeepVoice có thể đạt được. Nhưng Baidu cho biết, các hệ thống trong tương lai sẽ sử dụng lượng dữ liệu lớn hơn nữa để có thể mô phỏng thành công 10.000 chất giọng khác nhau, thậm chí còn nhiều hơn thế nữa.

Đại diện của Baidu chia sẻ: “Đây là thành tựu ban đầu cho thấy khả năng phát triển tiềm tàng của công nghệ AI. Hệ thống của chúng tôi đã thành công trong việc mở rộng quy mô lớn đến mức chưa từng có trong lĩnh vực chuyển đổi văn bản thành giọng nói. Chúng tôi tin là trong tương lai gần, chất lượng của công nghệ này sẽ còn được cải thiện thêm nữa nhờ kết hợp lượng dữ liệu lớn hơn, tốt hơn với những kỹ thuật machine learning truyền thống”.

Baidu không phải là “ông lớn” duy nhất trong công nghệ tổng hợp giọng nói máy tính. DeepMind (thuộc Google) cũng đã triển khai một dự án tương tự với tên gọi WaveNet. Phiên bản mới nhất của hệ thống này có thể mô phỏng giọng nói với chất lượng khá cao, thậm chí còn tự tạo ra “tiếng cười” để giọng nói đó được tự nhiên, chân thực hơn. Hiện tại, WaveNet đang được sử dụng cho giọng tiếng Anh và tiếng Nhật của Google Assistant.

Theo TheVerge

Trí tuệ nhân tạo của Google tự đánh cờ vây với chính mình để trở thành siêu cao thủ, không cần con người nữa

Theo Trí Thức Trẻ Copy link

Link bài gốc Lấy link

Tags:

Tin cùng chuyên mục

Xem theo ngày

NỔI BẬT TRANG CHỦ

Vụ lộ mã nguồn Claude Code: Cursor, GitHub Copilot được hưởng lợi, nhưng thứ quan trọng nhất vẫn khó lòng mà copy được!

Khi source code Claude Code bị lộ ngày 31/3, tờ Axios tổng kết ngắn gọn: "Vụ lộ này sẽ không nhấn chìm Anthropic, nhưng nó cho mọi đối thủ một khóa học miễn phí về cách xây dựng công cụ AI coding hạng nặng." Nhưng "học phí miễn phí" không có nghĩa là ai cũng sẽ học được điều quan trọng nhất.
Mô hình toán học của MIT cho thấy: Sự "ba phải" của AI như ChatGPT đang cuốn người dùng vào vòng xoáy hoang tưởng

Hệ thống AI mới của Baidu có thể mô phỏng 2500 giọng nói khác nhau trên thế giới

Baidu đã chính thức trình làng DeepVoice 3 - hệ thống AI mô phỏng giọng nói mới nhất của hãng, mở ra rất nhiều tiềm năng cho các lĩnh vực công nghệ trong tương lai.

Vụ lộ mã nguồn Claude Code: Cursor, GitHub Copilot được hưởng lợi, nhưng thứ quan trọng nhất vẫn khó lòng mà copy được!

Mô hình toán học của MIT cho thấy: Sự "ba phải" của AI như ChatGPT đang cuốn người dùng vào vòng xoáy hoang tưởng