Các nhà khoa học đang thử nghiệm thuật toán giúp máy tính biết được đâu là kẻ đang troll, đâu là người nói thực lòng

Nguyễn Hải,

Những lời lẽ châm biếm trêu chọc trong thế giới ảo luôn gây ra sự khó chịu cho nhiều người, đôi khi có thể gây chết người khi nạn nhân không thể chịu nổi chúng.

Thành công không phải đến từ may mắn mà đó là một thuật toán
Hôm nay Facebook đổi thuật toán: Tin vui cho bạn nhưng là tin buồn cho tất cả các fanpage và báo chí

Những cuộc tranh luận trên mạng có thể chuyển hướng khác xa so với mục đích ban đầu chỉ vì một vài câu nói mỉa mai, châm biếm. Không những vậy, nó thực sự gây ra khó chịu cho người xem. Vì vậy, những tờ báo hay các mạng xã hội lớn luôn cố gắng tìm kiếm và loại bỏ những từ ngữ như vậy nhằm tránh gây khó chịu cho người xem. Ví dụ, trong khi chưa có cách làm hiệu quả hơn, Facebook cho người dùng một tùy chọn để "giấu bình luận" gây khó chịu đó đi.

Vào năm 1970, trong thời kỳ đòi nữ quyền lên cao, một nhà hoạt động xã hội Irina Dunn đã viết vội một câu khẩu hiệu lên mặt sau cánh cửa toilet tại Đại học Sydney câu nói: “Một người phụ nữ cần một người đàn ông như con cá cần một chiếc xe đạp.” Cụm từ này sau đó lan truyền nhanh chóng và cuối cùng trở thành một thông điệp nổi tiếng cho phong trào nữ quyền vào ngày đó.

Cụm từ đó cũng là một ví dụ về sự mỉa mai. Điểm hài hước trong câu nói đó bắt nguồn từ thực tế con cá chẳng cần đến một chiếc xe đạp. Hầu hết mọi người đều nhận ra điểm hài hước này. Và trong khi hàng loạt các tiến bộ về kỹ thuật máy học đã giúp máy tính phát hiện nhiều hình thức khác nhau của sự hài hước, sự mỉa mai lại không nằm trong số đó.

Phát hiện sự châm biếm bằng máy tính

Các hình thức khác nhau của sự hài hước có thể phát hiện bằng cách nhìn vào tìm kiếm sự kết hợp giữa các động từ tích cực với tình huống tiêu cực hoặc tình huống khó chịu. Đây cũng là cách tiếp cận mà các nhà nghiên cứu sử dụng để tìm kiếm các câu nói mỉa mai.

Nhưng khác với sự hài hước, các câu nói mỉa mai thường thường không có sắc thái tình cảm ở đó. Cụm từ trên là một ví dụ tốt cho đánh giá trên – nó không chứa các từ ngữ mang sắc thái tình cảm. Vì vậy, rõ ràng các nhà nghiên cứu cần một chiến lược mới nếu họ muốn máy tính có thể phát hiện loại trò đùa này.

Hiện nay, Aditya Joshi đến từ Viện Công nghệ Bombay Ấn Độ, cùng một vài đồng nghiệp khác, cho biết họ đã thành công trong một chiến lược như vậy. Họ cho biết cách tiếp cận mới của mình cải thiện đáng kể khả năng của máy tính khi phát hiện các câu nói mỉa mai.

Phương pháp của họ tương đối đơn giản. Thay vì phân tích sắc thái tình cảm trong mỗi câu nói, Joshi và đồng nghiệp của mình phân tích sự tương tự giữa các từ ngữ. Họ thực hiện hướng tiếp cận này bằng cách nghiên cứu cách mà các từ ngữ liên quan đến nhau trong cơ sở dữ liệu khổng lồ của Google News Stories, chứa khoảng hơn 3 triệu từ. Cơ sở dữ liệu này được biết đến với cái tên Word2Vec.

Cơ sở dữ liệu này được phân tích chi tiết để xác định các từ ngữ kế tiếp nhau xuất hiện thường xuyên đến mức nào. Điều này cho phép chúng được biểu diễn như các vector trong không gian chiều cao (high dimensional space). Phương pháp này sẽ biểu diễn các cụm từ bình thường đứng cạnh nhau thành các vector bình thường và các phép tính toán học không gian vector có thể nắm bắt được những mối quan hệ đơn giản giữa chúng. Ví dụ “king – man woman = queen.”

Mặc dù có sự khác biệt rõ ràng giữa các từ “man” và “woman”, chúng được biểu diễn thành các phần tương tự nhau trong không gian vector. Tuy nhiên, các từ “xe đạp” và “cá” chiếm các phần hoàn toàn khác nhau trong không gian vector, và vì vậy chúng sẽ được xem như rất khác nhau.

Theo Joshi và đồng nghiệp, các câu chứa sự tương phản giữa các khái niệm tương tự nhau và các khái niệm không giống nhau nhiều khả năng là các câu nói mỉa mai.

Để thử nghiệm ý tưởng này, họ nghiên cứu sự tương tự nhau giữa các từ ngữ trong cơ sở dữ liệu về trích dẫn trong website của Goodreads. Cả nhóm chỉ chọn ra những câu trích dẫn đã được gắn nhãn “mỉa mai” bởi người đọc, và tất nhiên bao gồm cả các câu trích dẫn được gắn nhãn là “triết lý”. Với cách phân loại như vậy, trong cơ sở dữ liệu với 3.629 câu trích dẫn này, có 759 câu trích dẫn “mỉa mai”. Sau đó, cả nhóm so sánh vector của từng từ trong mỗi câu trích dẫn để tìm ra sự tương tự và khác nhau.

Kết quả làm cho việc đọc trở nên rất thú vị. Joshi và đồng nghiệp cho biết, cách tiếp cận thông qua phương pháp nhúng từ ngữ này tốt hơn đáng kể so với các kỹ thuật khác trong việc phát hiện các câu nói mỉa mai. “Chúng tôi nhận ra sự cải thiện rõ rệt trong việc phát hiện các từ ngữ mỉa mai.”

Liệu máy tính đã có thể thay thế con người trong việc này?

Tất nhiên, cách tiếp cận này vẫn chưa hoàn hảo. Các lỗi mà nó mắc phải do liên quan đến cấu trúc câu. Ví dụ, nó không phát hiện được sự mỉa mai trong câu trích dẫn sau: “Tuyệt. Lời khuyên về mối quan hệ từ một trong những người bị truy nã gắt gao nhất nước Mỹ.”

Điều này có thể là do nhiều từ ngữ có hàng loạt nghĩa khác nhau mà cơ sở dữ liệu nhúng Word2Vec không phát hiện ra.

Một câu nói mỉa mai khác mà phép toán này cũng không nhận ra: “Ồ, và tôi cho rằng quả táo đã ăn mất miếng phô mai rồi nhỉ.” (Câu Katniss nói với Peeta khi phát hiện giỏ thức ăn bị mất miếng phô mai). Trong trường hợp này, táo và phô mai có điểm số tương tự rất cao, và không có cặp các từ nào cho thấy sự khác biệt về ngữ nghĩa. Vì vậy, ví dụ này không tuân theo quy tắc mà thuật toán này được thiết kế để tìm kiếm.

Thuật toán này cũng xác định sai một số câu nói có sự mỉa mai ở trong đó. Joshi và đồng nghiệp đã chỉ ra ví dụ này: “Ôi tình yêu của anh, anh muốn tan biến trong em như một gợn sóng tan biến vào đại dương – chậm rãi, âm thầm và mãi mãi.”

Người đọc sẽ không gắn nhãn câu này mang ý nghĩa châm biếm. Tuy nhiên, không khó để hình dung tại sao câu này lại bị máy tính cho là được sử dụng một cách mỉa mai.

Nhìn chung, đây là một nghiên cứu rất thú vị, khi nó đặt ra một số hướng đi cho các nghiên cứu khác trong tương lai. Đặc biệt, nó sẽ rất hấp dẫn nếu sử dụng loại thuật toán này để tạo ra các câu nói mỉa mai và có thể nhờ đến sự phán xét của con người để quyết định liệu nó có hiệu quả hay không trong cách sử dụng này.

Xa hơn nữa, đó là việc tạo ra sự hài hước cho bản thân phép điện toán. Đó có thể là một mục đích đầy tham vọng, nhưng nó không hoàn toàn nằm ngoài tầm với của chúng ta. Phần nhiều sự hài hước đều có tính công thức, vì vậy một thuật toán có thể dễ dàng áp dụng một công thức như vậy để đạt được mục đích này.

Tham khảo TechnologyReview

Facebook thay đổi thuật toán, từ nay "giật tít câu like" không còn đường sống

Theo Trí Thức Trẻ Copy link 18/10/2016 08:30 (GMT +7)

Link bài gốc Lấy link

Tags:

Tin cùng chuyên mục

Xem theo ngày

NỔI BẬT TRANG CHỦ

2025 là một năm mà robot hình người đã có thể bước ra đời thực và khiến cả thế giới phải rùng mình

Năm 2025 đánh dấu một bước ngoặt đáng nhớ của robot hình người, khi chúng không còn chỉ đứng yên trong phòng thí nghiệm.
Nhóm “lưu trữ lậu” cào sạch 300TB nhạc của Spotify, tung torrent miễn phí 86 triệu bài hát

Các nhà khoa học đang thử nghiệm thuật toán giúp máy tính biết được đâu là kẻ đang troll, đâu là người nói thực lòng

Những lời lẽ châm biếm trêu chọc trong thế giới ảo luôn gây ra sự khó chịu cho nhiều người, đôi khi có thể gây chết người khi nạn nhân không thể chịu nổi chúng.

2025 là một năm mà robot hình người đã có thể bước ra đời thực và khiến cả thế giới phải rùng mình

Nhóm “lưu trữ lậu” cào sạch 300TB nhạc của Spotify, tung torrent miễn phí 86 triệu bài hát