AI Claude Opus 4.6 viết lại trình biên dịch C chỉ trong hai tuần và ngốn nửa tỷ đồng: Thành quả đáng chú ý nhưng lại nhiều rủi ro tiềm ẩn!
Anthropic đã cho 16 AI Claude hoạt động song song để xây dựng một trình biên dịch C từ đầu. Dù tạo ra sản phẩm có thể biên dịch nhân Linux, dự án vẫn đặt ra những lo ngại về khả năng phát triển phần mềm tự động hoàn toàn trong tương lai.
Một thử nghiệm quy mô lớn do Nicholas Carlini, nhà nghiên cứu thuộc nhóm Safeguards của Anthropic, thực hiện đã đặt ra những cột mốc mới trong khả năng phát triển phần mềm tự động bằng AI. Dựa trên mô hình Claude Opus 4.6, ông đã tổ chức một đội agents gồm 16 phiên bản Claude làm việc song song, với mục tiêu xây dựng một trình biên dịch C từ đầu bằng ngôn ngữ Rust.
Kết quả thu được sau gần 2.000 phiên làm việc Claude Code trong vòng hai tuần là một trình biên dịch với khoảng 100.000 dòng mã, có khả năng biên dịch nhân Linux 6.9 trên các kiến trúc x86, ARM và RISC-V. Dự án tiêu tốn chi phí API lên tới gần 20.000 USD, tương đương khoảng 528 triệu đồng.
AI Agents của Claude hoạt động như nào?
Không giống như các phiên bản Claude vốn chỉ có một instance hoạt động độc lập và sẽ đóng vai trò khác nhau cho mỗi agent, hệ thống này được thiết kế để cho phép nhiều agents Claude làm việc đồng thời trên cùng một mã nguồn mà không cần sự giám sát trực tiếp của con người. Mỗi agent hoạt động trong một container riêng biệt, context riêng biệt, sử dụng một vòng lặp liên tục để nhận nhiệm vụ, xử lý và đẩy kết quả trở lại git repo chung.
Để tránh xung đột nhiệm vụ, mỗi Claude sẽ ghi lại một tập tin khóa cho tác vụ đang xử lý. Hệ thống đồng bộ đảm bảo nếu một agent khác cố gắng nhận cùng nhiệm vụ, nó sẽ buộc phải chọn nhiệm vụ khác. Khi hoàn thành, Claude sẽ hợp nhất mã nguồn, xử lý xung đột và tiếp tục vòng lặp.
Dù là một nguyên mẫu còn đơn giản, không có hệ thống điều phối tác vụ tổng thể (hay còn gọi là orchestrator), các Claude vẫn có khả năng tự xác định nhiệm vụ tiếp theo và ghi lại tiến trình. Ngoài những Claude chính viết trình biên dịch, một số agents khác được giao nhiệm vụ chuyên biệt như: rà soát mã trùng lặp, tối ưu hiệu năng, đánh giá kiến trúc mã dưới góc nhìn của lập trình viên Rust, hay hoàn thiện tài liệu kỹ thuật.
Thách thức kỹ thuật và các giới hạn
Dù đạt được những kết quả đáng chú ý, Carlini thừa nhận trình biên dịch này vẫn còn nhiều giới hạn. Trình biên dịch chưa thể thay thế hoàn toàn các công cụ hiện có như GCC, khi:
- Chưa có khả năng xử lý chế độ thực 16-bit cần thiết để khởi động Linux. Phần này vẫn phụ thuộc vào GCC.
- Chưa tích hợp bộ hợp dịch (assembler) và bộ liên kết (linker) của riêng mình, hai thành phần mà Claude mới chỉ bắt đầu xây dựng và còn tồn tại lỗi.
- Mã biên dịch đầu ra kém hiệu quả hơn so với mã do GCC tạo ra, ngay cả khi đã bật tất cả tối ưu hóa.
- Chất lượng mã Rust nhìn chung ổn định, nhưng vẫn còn khoảng cách lớn so với sản phẩm của lập trình viên chuyên nghiệp.
Một giải pháp được áp dụng để đẩy mạnh quá trình phát triển là sử dụng GCC làm trình biên dịch tham chiếu. Claude chỉ biên dịch một phần mã, phần còn lại được xử lý bằng GCC để xác định chính xác vị trí lỗi, từ đó mỗi agent có thể làm việc song song và khắc phục các lỗi riêng biệt.

Thành tựu của Claude Opus 4.6 càng trở nên đáng chú ý khi đặt trong bối cảnh lịch sử phát triển phần mềm. Trình biên dịch C đầu tiên, do Dennis Ritchie viết vào đầu thập niên 1970, đã mất khoảng 2 năm để hoàn thiện, với sự tham gia của nhiều kỹ sư tại Bell Labs. Khi đó, tài nguyên tính toán hạn chế, ngôn ngữ lập trình còn non trẻ, và quy trình phát triển phần mềm chưa được chuẩn hóa như hiện nay.
So sánh như vậy để thấy rằng, dù Claude chưa tạo ra một sản phẩm hoàn chỉnh, việc một hệ thống AI có thể xây dựng được một trình biên dịch khả thi chỉ trong hai tuần, với chi phí tương đương mức lương hai tháng của một kỹ sư phần mềm tại Mỹ, là một bước tiến đáng kể về mặt công nghệ.
Rủi ro của phát triển phần mềm tự động
Carlini nhấn mạnh rằng, dù khả năng của việc lập trình bằng các agents team đang mở ra tiềm năng lớn trong phát triển phần mềm, rủi ro an toàn cũng cần được đặc biệt lưu ý. Việc triển khai phần mềm do AI viết mà không qua kiểm tra thủ công tiềm ẩn nhiều nguy cơ, nhất là trong các hệ thống đòi hỏi độ tin cậy cao bởi agents team thường hoạt động một cách tự động mà không cần con người can thiệp.
Dự án này không chỉ đóng vai trò là một thử nghiệm kỹ thuật mà còn là công cụ đánh giá năng lực của các thế hệ mô hình Opus. Carlini cho biết Claude Opus 4.5 mới chỉ đủ khả năng tạo trình biên dịch vượt qua bộ kiểm thử cơ bản. Chỉ đến phiên bản 4.6, mô hình mới đạt đủ năng lực để xây dựng phần mềm ở quy mô lớn như biên dịch nhân Linux.
Dù vẫn còn nhiều hạn chế, tác giả tin rằng hướng phát triển này sẽ tiếp tục mở rộng. Carlini kết luận: "Tôi không nghĩ rằng khả năng này có thể đạt được sớm như vậy trong năm 2026. Chúng ta đang bước vào một kỷ nguyên mới của phát triển phần mềm, nơi cần có những chiến lược phù hợp để khai thác hiệu quả và an toàn sức mạnh của AI."
NỔI BẬT TRANG CHỦ
-
Đoạn video do AI của Trung Quốc khiến cả thế giới choáng váng: Kỷ nguyên làm phim đã thay đổi mãi mãi?
Chỉ chưa đầy một năm trước, cách đơn giản nhất để phân biệt một video có phải do AI tạo ra hay không là... đếm ngón tay nhân vật. Nhưng hôm nay, ranh giới đó đã bị xóa nhòa hoàn toàn.
-
Công ty mẹ TikTok làm giới công nghệ giật mình: Câu “Nhìn là biết AI” đã trở nên lỗi thời