Ít ai biết chatbot Claude được "nuôi dạy" bởi một triết gia, với bản hướng dẫn đạo đức dài tới 30.000 từ
Đằng sau chatbot Claude của Anthropic là một triết gia chịu trách nhiệm viết bộ quy tắc đạo đức dài hàng chục nghìn từ, nhằm dạy AI cách ứng xử, từ chối yêu cầu nguy hiểm và giao tiếp với con người theo cách tử tế hơn.
Khi nhắc tới các chatbot AI như Claude, nhiều người nghĩ đến kỹ sư, nhà khoa học dữ liệu hoặc các chuyên gia machine learning. Nhưng tại Anthropic, công ty đứng sau Claude, một trong những người quan trọng nhất lại là… một triết gia.

Amanda Askell, triết gia và là nhà nghiên cứu AI tại Anthropic
Amanda Askell, nhà nghiên cứu làm việc tại trụ sở Anthropic ở San Francisco, đang phụ trách một nhiệm vụ khá đặc biệt. Công việc của cô là xây dựng bộ quy tắc đạo đức và hành vi cho Claude. Nói đơn giản, cô giúp định hình cách AI này "cư xử" khi nói chuyện với con người.
Để làm điều đó, Askell đã viết một tài liệu hướng dẫn dài khoảng 30.000 từ. Nội dung của tài liệu giống như một bộ hiến pháp thu nhỏ dành cho AI. Trong đó mô tả các nguyên tắc mà Claude cần tuân theo khi phản hồi người dùng, cách xử lý những câu hỏi nhạy cảm và cách từ chối các yêu cầu nguy hiểm.
Những hướng dẫn này là nền tảng cho phương pháp mà Anthropic gọi là Constitutional AI. Thay vì chỉ huấn luyện AI bằng dữ liệu và phản hồi của con người, công ty còn cung cấp cho mô hình một tập hợp nguyên tắc đạo đức để tự đánh giá và điều chỉnh câu trả lời của mình.
Một phần quan trọng của tài liệu liên quan tới cách Claude phản ứng với những tình huống khó xử. Ví dụ khi người dùng cố gắng yêu cầu AI tạo nội dung nguy hiểm, lừa đảo hoặc thao túng người khác. Trong những trường hợp này, Claude được hướng dẫn phải từ chối một cách rõ ràng, đồng thời giải thích lý do thay vì trả lời mơ hồ.
Ngoài việc từ chối các yêu cầu nguy hiểm, Anthropic cũng muốn Claude thể hiện cách giao tiếp lịch sự và có tính thấu cảm hơn. Điều này không có nghĩa là AI thực sự có cảm xúc. Thực tế, nó chỉ là cách thiết kế phản hồi sao cho phù hợp với ngữ cảnh của cuộc trò chuyện và tránh gây tổn thương cho người dùng.
Vai trò của Askell vì thế khá khác so với hình dung quen thuộc về ngành AI. Thay vì viết code hay xây dựng mô hình, cô phải suy nghĩ về các câu hỏi đạo đức, triết học và hành vi xã hội. Sau đó chuyển chúng thành những nguyên tắc đủ rõ ràng để một hệ thống trí tuệ nhân tạo có thể áp dụng.
Câu chuyện này cho thấy một điều thú vị về ngành AI hiện nay. Khi các mô hình ngày càng mạnh và phổ biến, việc quyết định cách chúng nên cư xử với con người cũng trở thành một bài toán lớn. Và đôi khi, người được giao nhiệm vụ đó không phải là kỹ sư, mà là một triết gia.
Có thể nói, phía sau những câu trả lời lịch sự của Claude là hàng chục nghìn từ hướng dẫn được viết ra để dạy AI cách trở thành một "người nói chuyện tử tế". Và nếu chatbot đôi lúc từ chối trả lời bạn một cách rất lịch sự, rất có thể đó chính là lúc bản hiến pháp 30.000 từ kia đang phát huy tác dụng.
NỔI BẬT TRANG CHỦ
-
Bỏ 38 triệu mua iPhone 17 Pro Max, hay mua cả "combo Apple" đủ dùng cho 4 năm đại học?
Với số tiền gần 38 triệu đồng để mua iPhone 17 Pro Max, người dùng thực tế có thể sở hữu trọn bộ MacBook Neo, iPhone 17e và AirPods 4 chống ồn - một hệ sinh thái đủ phục vụ học tập, làm việc và giải trí.
-
Anthropic vừa tung báo cáo khiến nhiều người giật mình: AI chưa cướp việc của bạn, nhưng đang âm thầm khóa cửa người mới đi làm