Salesforce tạo ra thuật toán machine learning tự động tóm tắt văn bản thay người

Ngocmiz , Theo Trí Thức Trẻ
Bình luận 0

Các nhà nghiên cứu của Salesforce đã tạo ra hai đột phá mới trong công nghệ xử lý ngôn ngữ tự nhiên.

Đứng trước xu hướng con người ngày càng mất nhiều thời gian đọc email, báo điện tử và mạng xã hội, các nhà nghiên cứu của Salesforce đã phát triển một thuật toán sử dụng machine learning để tự động tóm tắt các văn bản dài một cách gãy gọn và chính xác.

Tự động tóm tắt sẽ là một trong những công nghệ quan trọng đối với Salesforce – công ty chuyên cung cấp các sản phẩm phục vụ cho hoạt động chăm sóc khách hàng trong doanh nghiệp. Salesforce cho rằng những đoạn văn tóm tắt có thể giúp nhân viên sales giảm thiểu thời gian đọc email và thông tin mới để tập trung nhiều hơn cho khách hàng của mình.

Để làm được điều này, Salesforce sử dụng trí tuệ nhân tạo phân tích và tóm gọn các đoạn văn. Công ty cho biết đã thực hiện được hai đột phá trong công nghệ xử lý ngôn ngữ tự nhiên là “mô hình phát sinh ngôn từ theo ngữ cảnh” và một “phương pháp huấn luyện các mô hình tóm tắt mới”. Hai mô hình này cho phép các nhà nghiên cứu tự động tạo ra các đoạn tóm tắt một cách chính xác và dễ hiểu. Trước đó, Salesforce cũng đã thâu tóm một startup về deep learning là MetaMind - nhóm nhân sự đứng sau toàn bộ công trình này.

Các nhà nghiên cứu của MetaMind giải thích rằng công nghệ tự động tóm tắt văn bản thông thường hoạt động trên hai nguyên tắc: extraction và abstraction. Với extraction, máy tính có thể tóm tắt dựa trên các câu chữ trước đó của văn bản nhưng lại không được linh hoạt cho lắm. Trong khi đó, abstraction cho phép máy đưa thêm từ mới nhưng hệ thống buộc phải hiểu đoạn văn ở mức khá cao thì mới có thể cho sử dụng từ mới một cách chuẩn xác.

Đây chính khi các mạng neuron trong deep learning phát huy tác dụng. Chúng có thể xử lý hàng loạt câu ví dụ và cho ra những từ biểu thị ý nghĩa của cả cụm, giúp hệ thống lược dịch lại được các đoạn chữ cũng như sản sinh ra được từ ngữ của riêng nó.

Các nhà nghiên cứu còn cho mô hình của họ xem lại các đoạn văn bản nó đã tóm tắt để có thêm ngữ cảnh. Các mô hình cũng xem lại cả các ví dụ tóm tắt do chính nó thực hiện để đảm bảo không lặp lại trong các đoạn sau.

Đột phá thứ hai của Salesforce cách các nhà nghiên cứu huấn luyện cho hệ thống tự học và nâng cấp chính nó. Họ sử dụng hai phương pháp: teacher forcing (học dưới sự thúc ép của “giáo viên”) và reinforcement learning (học tăng cường).

Reinforcement learning là phương pháp huấn luyện lấy cảm hứng từ cách động vật học hỏi, từng được Google DeepMind sử dụng để huấn luyện AI chơi video game. Ví dụ ở đây, các chuyên gia cho mô hình tạo ra một chuỗi từ ngữ với kết quả được chấm điểm theo thang đánh giá ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Thuật toán sẽ tự động cập nhật chính nó bằng mức điểm cao hơn, dẫn đến kết quả tóm tắt tốt hơn trong tương lai.


Ví dụ về khả năng tóm tắt văn bản của mô hình khi so sánh với đoạn tóm tắt do người viết

Ví dụ về khả năng tóm tắt văn bản của mô hình khi so sánh với đoạn tóm tắt do người viết

Trong khi đó, teacher forcing lại đánh giá bản tóm tắt theo một quy chuẩn định sẵn có thể cho ra “kết quả rất tốt” nhưng lại không mấy linh hoạt.

Các nhà nghiên cứu nhận ra rằng, khi kết hợp các mô hình lại với nhau, kết quả thu về ấn tượng hơn hẳn các hướng tiếp cận khác. Trong các ví dụ được nhóm nghiên cứu MetaMind đưa ra, các đoạn tóm tắt bằng mô hình cho ra kết quả ngắn hơn đáng kể so với văn bản gốc, câu chữ cũng gãy gọn dễ đọc ngang ngửa với bản tóm tắt do người viết.

Tuy nhiên, cho dù kết quả có ấn tượng đến mức nào thì nhóm nghiên cứu vẫn còn rất nhiều việc cần làm trước khi đưa công nghệ này vào thương mại hóa.

Tham khảo The Verge

Bình luận