Phân tích 6.852 phiên làm việc, giám đốc AI của AMD cảnh báo: Claude Code ngốc hơn và lười biếng hơn, không còn đáng tin cho các tác vụ phức tạp

Nguyễn Hải, Đời sống pháp luật 

Không chỉ suy giảm chất lượng xử lý tác vụ, điều đáng ngại hơn cả là việc Anthropic, công ty tạo ra Claude Code, lại không hề thông báo cho người dùng về sự thay đổi trong hành vi của AI này.

Vào thứ Sáu tuần trước, bà Stella Laurenzo, giám đốc nhóm AI của hãng AMD, vừa đăng một báo cáo dài trên GitHub, tổng hợp những gì đội AMD quan sát được trong nhiều tháng qua với kết luận:

"Claude không thể tin cậy để thực hiện các tác vụ kỹ thuật phức tạp," bà viết, nhấn mạnh rằng đội ngũ đã đưa ra kết luận này sau khi xem xét hàng tháng trời nhật ký làm việc từ một môi trường "rất ổn định, độ phức tạp cao". "Mọi kỹ sư cao cấp trong đội tôi đều báo cáo những trải nghiệm và câu chuyện tương tự," bà Laurenzo nói thêm.

Con số không nói dối. Bà Laurenzo và đội ngũ đã phân tích 6.852 phiên làm việc với Claude Code, bao gồm 234.760 lần gọi công cụ và 17.871 khối suy nghĩ. Dữ liệu cho thấy một bức tranh đáng lo ngại.

Bà Stella Laurenzo, giám đốc nhóm AI của hãng AMD

Số lần vi phạm stop-hook - những dấu hiệu cho thấy AI đang "lười biếng", né tránh trách nhiệm, ngừng suy nghĩ sớm và liên tục xin phép thay vì tự làm - tăng vọt từ mức không một lần nào trước ngày 8 tháng 3 lên trung bình 10 lần mỗi ngày cho đến cuối tháng đó.

Số lần Claude đọc qua đoạn code trước khi thực hiện thay đổi cũng giảm mạnh, từ trung bình 6,6 lần xuống chỉ còn 2 lần vào cuối tháng 3. Điều này có nghĩa là AI đang sửa code mà hầu như không hiểu nó đang làm gì. Tệ hơn nữa, trong cùng khoảng thời gian đó, Claude bắt đầu viết lại toàn bộ file thay vì chỉ chỉnh sửa những phần cần thiết - một dấu hiệu rõ ràng của sự lười biếng.

Tất cả những điều này, theo Laurenzo, chỉ ra rằng Claude Code không còn suy nghĩ sâu sắc như trước. Và thời điểm suy giảm này trùng khớp với việc Anthropic triển khai "thinking content redaction" - tính năng ẩn quá trình suy nghĩ - trong phiên bản Claude Code 2.1.69 vào đầu tháng 3.

Thinking redaction hoạt động như một thiết lập mặc định ẩn đi nội dung suy nghĩ từ phản hồi của Claude Code, nghĩa là người dùng không biết được Claude Code thực sự đang làm gì trong khi nó suy nghĩ về một yêu cầu. Bằng chứng, theo Laurenzo, chỉ ra một sự giảm sút chung về mức độ suy nghĩ kể từ khi tính năng này được áp dụng.

"Khi suy nghĩ nông, mô hình mặc định chọn hành động rẻ nhất có sẵn: sửa mà không đọc, dừng mà chưa hoàn thành, né tránh trách nhiệm khi thất bại, chọn giải pháp đơn giản nhất thay vì giải pháp đúng," báo cáo trên GitHub giải thích. "Đây chính xác là những triệu chứng chúng tôi quan sát được."

Nhưng còn tệ hơn nữa. Anthropic đã âm thầm thay đổi mức độ nỗ lực mặc định từ "cao" xuống "trung bình" và giới thiệu "adaptive thinking" - cho phép AI tự quyết định mức độ suy luận. Không có thông báo. Không có cảnh báo. Khi người dùng chia sẻ bản ghi, kỹ sư của chính Anthropic xác nhận mô hình đang phân bổ KHÔNG thinking token ở một số lượt. Và những lượt có mức suy luận bằng không? Chính xác là những lúc AI "ảo giác" - nghĩ ra những thứ không có thật.

Đối với AMD, hậu quả rất thực tế. Toàn bộ quy trình làm việc về AI compiler của họ được xây dựng xung quanh Claude Code, với hơn 50 phiên đồng thời chạy trên một công cụ. Một bản cập nhật âm thầm đã phá vỡ mọi thứ. "Chúng tôi đã chuyển sang một nhà cung cấp khác đang làm công việc chất lượng cao hơn, nhưng Claude từng tốt với chúng tôi, và chúng tôi để lại thông tin này với hy vọng Anthropic có thể sửa sản phẩm của họ," Laurenzo giải thích.

Bà từ chối tiết lộ công cụ mới mà đội ngũ đang dùng, nói rằng các thỏa thuận bảo mật ngăn cản việc đó. Nhưng bà cảnh báo Anthropic rằng trò chơi viết code bằng AI vẫn còn ở giai đoạn đầu và Anthropic đang có nguy cơ mất vị trí dẫn đầu nếu hành vi này tiếp tục.

"Tất cả những gì tôi có thể nói thêm là 6 tháng trước, Claude đứng một mình về chất lượng suy luận và khả năng thực thi," bà Laurenzo nói thêm trong một phản hồi. "Nhưng những đối thủ khác cần được theo dõi và đánh giá rất cẩn thận. Anthropic không còn độc tôn ở tầng khả năng mà Opus từng chiếm giữ."

Bà Laurenzo yêu cầu Anthropic minh bạch về việc liệu họ có đang giảm hoặc giới hạn thinking tokens hay không, và ít nhất cũng cần hiển thị số lượng thinking tokens được sử dụng cho mỗi yêu cầu để người dùng có thể giám sát liệu yêu cầu của họ có nhận được độ sâu suy luận cần thiết hay không.

Bà cũng yêu cầu Anthropic thêm một gói cao cấp đảm bảo "suy nghĩ sâu" cho các kỹ sư chạy quy trình phức tạp. "Mô hình đăng ký hiện tại không phân biệt giữa người dùng cần 200 thinking tokens mỗi phản hồi và người dùng cần 20.000," bà giải thích. "Người dùng chạy quy trình kỹ thuật phức tạp sẽ sẵn sàng trả nhiều hơn đáng kể để đảm bảo có suy nghĩ sâu."

Đây không phải vấn đề riêng của AMD. Nhiều người dùng khác trên Reddit và GitHub đều bày tỏ cảm giác tương tự. Và đây cũng không phải lần đầu Anthropic gặp rắc rối - họ vừa bị phê phán vì tăng đột ngột mức sử dụng token khiến nhiều người dùng vượt giới hạn, cùng với việc toàn bộ mã nguồn của Claude Code bị lộ gần đây.

Tin cùng chuyên mục
Xem theo ngày

NỔI BẬT TRANG CHỦ