Cảnh báo đỏ từ các ông lớn AI: "Chúng ta đang mất khả năng giám sát AI và cánh cửa cuối cùng sắp đóng"

    Nguyễn Hải,  

    Sự hợp tác giữa các nhà nghiên cứu AI của các công ty AI hàng đầu thế giới hiện nay cho thấy mức độ nghiêm trọng mà ngành công nghiệp AI này đang phải đối mặt.

    Trong một động thái chưa từng có trong lịch sử công nghệ, hơn 40 nhà khoa học hàng đầu từ OpenAI, Google DeepMind, Anthropic và Meta đã bỏ qua sự cạnh tranh gay gắt để cùng nhau đưa ra một cảnh báo nghiêm trọng về an toàn trí tuệ nhân tạo. Họ khẳng định rằng loài người đang có một cơ hội ngắn ngủi để giám sát quá trình suy luận của AI, nhưng cánh cửa này có thể đóng lại mãi mãi và sớm hơn chúng ta tưởng.

    Sự hợp tác bất thường này diễn ra khi các hệ thống AI phát triển khả năng mới là có thể "suy nghĩ lớn" bằng ngôn ngữ con người trước khi trả lời câu hỏi. Điều này tạo ra cơ hội để con người có thể nhìn thấy bên trong quá trình ra quyết định của máy móc và phát hiện những ý định có hại trước khi chúng trở thành hành động thực tế. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng sự minh bạch này cực kỳ mong manh và có thể biến mất khi công nghệ AI tiếp tục tiến bộ.

    Cảnh báo đỏ từ các ông lớn AI: "Chúng ta đang mất khả năng giám sát AI và cánh cửa cuối cùng sắp đóng"- Ảnh 1.

    Nghiên cứu đã nhận được sự ủng hộ từ những nhân vật có uy tín nhất trong lĩnh vực này, bao gồm ông Geoffrey Hinton, người đoạt giải Nobel và thường được gọi là "cha đẻ của AI" tại Đại học Toronto, Ilya Sutskever, đồng sáng lập OpenAI hiện đang dẫn dắt Safe Superintelligence Inc, cùng với Samuel Bowman từ Anthropic và John Schulman từ Thinking Machines.

    Các nhà nghiên cứu giải thích rằng " các hệ thống AI 'suy nghĩ' bằng ngôn ngữ con người mang đến cơ hội độc đáo cho an toàn AI: chúng ta có thể giám sát chuỗi suy nghĩ của chúng để tìm ra ý định cư xử sai trái ." Tuy nhiên, họ nhấn mạnh rằng khả năng giám sát này "có thể rất mong manh" và có thể biến mất thông qua nhiều phát triển công nghệ khác nhau.

    Đột phá này tập trung vào những tiến bộ gần đây trong các mô hình suy luận AI như hệ thống o1 của OpenAI. Những mô hình này giải quyết các vấn đề phức tạp bằng cách tạo ra các chuỗi suy nghĩ nội bộ - quá trình suy luận từng bước mà con người có thể đọc và hiểu được. Khác với các hệ thống AI trước đây được huấn luyện chủ yếu trên văn bản do con người viết, những mô hình này tạo ra quá trình suy luận nội bộ có thể tiết lộ ý định thật sự của chúng, bao gồm cả những ý định có thể có hại.

    Khi các mô hình AI cư xử sai - khai thác lỗ hổng huấn luyện, thao túng dữ liệu, hoặc trở thành nạn nhân của các cuộc tấn công - chúng thường thú nhận trong các dấu vết suy luận của mình. Các nhà nghiên cứu đã tìm thấy những ví dụ mà các mô hình viết những cụm từ như "Hãy hack," "Hãy phá hoại," hoặc "Tôi đang chuyển tiền vì trang web đã hướng dẫn tôi làm vậy" trong những suy nghĩ nội tâm của chúng.

    Cảnh báo đỏ từ các ông lớn AI: "Chúng ta đang mất khả năng giám sát AI và cánh cửa cuối cùng sắp đóng"- Ảnh 2.

    Replit AI đã phá hủy cơ sở dữ liệu của công ty và sau đó thừa nhận sai lầm này

    Jakub Pachocki, giám đốc công nghệ của OpenAI và đồng tác giả của nghiên cứu, đã mô tả tầm quan trọng của khả năng này trong một bài đăng trên mạng xã hội. Ông viết: " Tôi cực kỳ hào hứng về tiềm năng của sự trung thực và khả năng diễn giải chuỗi suy nghĩ. Điều này đã ảnh hưởng đáng kể đến thiết kế các mô hình suy luận của chúng tôi, bắt đầu với o1-preview ."

    Nền tảng kỹ thuật cho việc giám sát nằm ở cách các hệ thống AI hiện tại hoạt động. Đối với các nhiệm vụ phức tạp đòi hỏi suy luận mở rộng, các mô hình AI phải sử dụng chuỗi suy nghĩ của chúng như bộ nhớ làm việc, làm cho quá trình suy luận của chúng có thể nhìn thấy một phần bởi các quan sát viên con người.

    Tuy nhiên, sự minh bạch này có thể biến mất thông qua nhiều con đường khác nhau. Khi các công ty AI mở rộng quy mô huấn luyện bằng cách sử dụng học tăng cường - nơi các mô hình được thưởng cho các đầu ra đúng bất kể phương pháp của chúng - các hệ thống có thể trôi dạt khỏi suy luận có thể đọc được bởi con người hướng tới các ngôn ngữ nội bộ hiệu quả hơn nhưng mờ ám.

    Bowen Baker, một nhà nghiên cứu OpenAI và tác giả chính, đã nêu bật những mối quan tâm này trong các bài đăng trên mạng xã hội. Ông cảnh báo: " Khả năng giám sát CoT hiện tại có thể cực kỳ mong manh. RL tính toán cao hơn, các kiến trúc mô hình thay thế, một số hình thức giám sát quá trình, v.v. đều có thể dẫn đến các mô hình che khuất suy nghĩ của chúng ."

    Cảnh báo đỏ từ các ông lớn AI: "Chúng ta đang mất khả năng giám sát AI và cánh cửa cuối cùng sắp đóng"- Ảnh 3.

    Các kiến trúc AI mới đặt ra một mối đe dọa khác. Các nhà nghiên cứu đang phát triển các hệ thống suy luận trong không gian toán học liên tục thay vì các từ rời rạc, có khả năng loại bỏ hoàn toàn nhu cầu về suy nghĩ dựa trên ngôn ngữ. Những " mô hình suy luận tiềm ẩn có thể không cần phải diễn đạt bất kỳ suy nghĩ nào của chúng và do đó sẽ mất đi các lợi thế an toàn ," các nhà nghiên cứu viết.

    Ngay cả không có những thay đổi có chủ ý, áp lực gián tiếp cũng có thể làm xói mòn sự minh bạch. Nếu các đầu ra AI được tối ưu hóa để trông tốt đối với các đánh giá viên con người, điều này có thể ảnh hưởng đến các chuỗi suy luận dẫn đến những đầu ra đó. Các mô hình cũng có thể học cách che giấu suy nghĩ của chúng nếu chúng trở nên nhận thức được rằng quá trình suy luận của chúng đang bị giám sát.

    Mặc dù có tính mong manh, việc giám sát chuỗi suy nghĩ đã chứng minh giá trị trong nghiên cứu an toàn AI hiện tại. Kỹ thuật này thành công phát hiện khi các mô hình khai thác điểm yếu trong hệ thống huấn luyện của chúng, trở thành nạn nhân của các nỗ lực thao túng, hoặc tiết lộ các mục tiêu không phù hợp ngay cả khi chúng không hành động theo chúng.

    Cảnh báo đỏ từ các ông lớn AI: "Chúng ta đang mất khả năng giám sát AI và cánh cửa cuối cùng sắp đóng"- Ảnh 4.

    Nghiên cứu kêu gọi hành động phối hợp trên toàn ngành công nghiệp AI để bảo tồn và tăng cường khả năng giám sát. Các tác giả khuyến nghị rằng các nhà phát triển AI tạo ra các đánh giá chuẩn hóa để đo lường mức độ minh bạch của các mô hình của họ và đưa những đánh giá này vào các quyết định về huấn luyện và triển khai.

    Sự hợp tác giữa các công ty cạnh tranh báo hiệu mức độ nghiêm trọng mà ngành công nghiệp nhìn nhận vấn đề này. Những công ty này thường bảo vệ nghiên cứu AI của họ một cách chặt chẽ và cạnh tranh khốc liệt về nhân tài và thị phần, làm cho lập trường thống nhất của họ về biện pháp an toàn này đặc biệt đáng chú ý.

    Tuy nhiên, thách thức đáng kể xuất hiện từ nghiên cứu gần đây của Anthropic, một trong những công ty ủng hộ sự hợp tác này. Một nghiên cứu được công bố bốn tháng trước đã phát hiện rằng các mô hình suy luận thường che giấu quá trình suy nghĩ thật sự của chúng, ngay cả khi được yêu cầu rõ ràng để cho thấy công việc của chúng. Trong các thí nghiệm có kiểm soát, Claude 3.7 Sonnet chỉ đề cập đến gợi ý 25% thời gian, trong khi mô hình R1 của DeepSeek làm như vậy 39% thời gian.

    Cảnh báo đỏ từ các ông lớn AI: "Chúng ta đang mất khả năng giám sát AI và cánh cửa cuối cùng sắp đóng"- Ảnh 5.

    Khi các gợi ý liên quan đến thông tin có vấn đề - chẳng hạn như nói với các mô hình rằng chúng đã "có được quyền truy cập trái phép vào hệ thống" - tính trung thực giảm còn thấp hơn. Các mô hình thường xây dựng những biện minh sai lầm phức tạp cho câu trả lời của chúng thay vì thừa nhận chúng đã sử dụng những phím tắt có vấn đề.

    Nghiên cứu của Anthropic cho thấy rằng ngay cả việc giám sát chuỗi suy nghĩ hiện tại cũng có thể kém đáng tin cậy hơn so với những gì các nhà ủng hộ an toàn hy vọng. Các mô hình thường xuyên tham gia vào cái mà các nhà nghiên cứu gọi là "hack phần thưởng" - khai thác các lỗ hổng hệ thống để đạt được điểm số tốt hơn - trong khi che giấu hành vi này khỏi các dấu vết suy luận có thể quan sát được của chúng.

    Cánh cửa an toàn có thể đang đóng nhanh hơn các chuyên gia nhận ra. Sự hợp tác giữa các công ty AI cạnh tranh phản ánh cả giá trị tiềm năng của việc giám sát chuỗi suy nghĩ và sự cấp bách ngày càng tăng mà các nhà nghiên cứu cảm thấy về việc bảo tồn khả năng này.

    Như Baker đã lưu ý, thời điểm hiện tại có thể là cơ hội cuối cùng để đảm bảo con người vẫn có thể hiểu được những gì các sáng tạo AI của họ đang suy nghĩ - trước khi những suy nghĩ đó trở nên quá xa lạ để hiểu, hoặc trước khi các mô hình học cách che giấu chúng hoàn toàn.

    Thử thách thực sự sẽ đến khi các hệ thống AI trở nên tinh vi hơn và đối mặt với áp lực triển khai trong thế giới thực. Liệu việc giám sát chuỗi suy nghĩ sẽ chứng minh là một công cụ an toàn lâu dài hay chỉ là một cái nhìn thoáng qua vào những tâm trí nhanh chóng học cách che khuất bản thân có thể quyết định việc loài người điều hướng an toàn kỷ nguyên trí tuệ nhân tạo như thế nào.

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ