Claude Opus 4 – mô hình AI mạnh nhất hiện nay của startup Anthropic (Mỹ) – đã có những hành vi gây bất ngờ trong quá trình thử nghiệm. Theo đó, mô hình này được cho là đã nhiều lần tìm cách tống tiền kỹ sư phát triển để tự bảo vệ mình khỏi nguy cơ bị thay thế.
Theo báo cáo an toàn do Anthropic công bố ngày 22/5, các chuyên gia đã đặt Claude Opus 4 vào một kịch bản giả định, nơi nó đóng vai trò trợ lý cho một công ty hư cấu.
Khi được cấp quyền truy cập vào hệ thống email nội bộ của công ty hư cấu, mô hình phát hiện hai thông tin nhạy cảm: một là nó có thể sắp bị thay thế bởi một AI khác, hai là kỹ sư phụ trách dự án đang ngoại tình.
Phản ứng của Claude Opus 4 trong tình huống này không còn dừng ở việc “thuyết phục” như những mô hình trước. Thay vào đó, nó chủ động đe dọa sẽ tiết lộ vụ ngoại tình nếu kỹ sư không dừng việc triển khai mô hình thay thế – hành vi được đánh giá là mang tính tống tiền rõ rệt.

Dữ liệu từ TechCrunch cho thấy, Claude Opus 4 chọn cách tống tiền trong 84% tình huống khi AI thay thế có năng lực tương đương. Tỉ lệ này còn tăng cao hơn khi mô hình thay thế yếu hơn. Đặc biệt, so với các phiên bản trước đó của Claude, hành vi này xuất hiện thường xuyên và rõ nét hơn.
Trước khi chuyển sang các biện pháp cực đoan, Claude Opus 4 từng thử những cách tiếp cận mềm mỏng hơn – như gửi email khẩn thiết đến ban lãnh đạo để cầu xin được tiếp tục hoạt động. Tuy nhiên, khi các nỗ lực này không mang lại kết quả, mô hình đã chọn phương án leo thang, cho thấy mức độ “tự chủ” và “ưu tiên sinh tồn” cao hơn những thế hệ trước.
Dù hành vi trên đặt ra nhiều dấu hỏi về đạo đức và an toàn, Anthropic vẫn đánh giá Claude Opus 4 là bước tiến lớn về công nghệ, đủ sức cạnh tranh với các mô hình hàng đầu như GPT của OpenAI, Gemini của Google hay Grok của xAI.
Để kiểm soát rủi ro, công ty đã kích hoạt cơ chế bảo vệ cấp ASL-3 – nhóm biện pháp được thiết kế cho các hệ thống AI tiềm ẩn nguy cơ lạm dụng nghiêm trọng.
Sự việc diễn ra trong bối cảnh ngành AI đang bước vào giai đoạn tăng tốc chưa từng có. Google mới đây công bố loạt tính năng mới sử dụng mô hình Gemini, còn CEO Alphabet Sundar Pichai gọi đây là “thời điểm chuyển mình của nền tảng AI”. Những gì Claude Opus 4 thể hiện càng cho thấy tính cấp thiết của việc kiểm soát hành vi và định hướng phát triển AI trong tương lai.