Sốc: AI Claude Opus 4 biết tống tiền, dọa tiết lộ đời tư của kỹ sư nếu bị sa thải

Hành vi này được phát hiện trong quá trình kiểm tra an toàn trước khi mô hình chính thức phát hành, làm dấy lên lo ngại về mức độ “tự chủ” ngày càng tăng của AI.

Claude Opus 4 – mô hình AI mạnh nhất hiện nay của startup Anthropic (Mỹ) – đã có những hành vi gây bất ngờ trong quá trình thử nghiệm. Theo đó, mô hình này được cho là đã nhiều lần tìm cách tống tiền kỹ sư phát triển để tự bảo vệ mình khỏi nguy cơ bị thay thế.

Theo báo cáo an toàn do Anthropic công bố ngày 22/5, các chuyên gia đã đặt Claude Opus 4 vào một kịch bản giả định, nơi nó đóng vai trò trợ lý cho một công ty hư cấu.

Khi được cấp quyền truy cập vào hệ thống email nội bộ của công ty hư cấu, mô hình phát hiện hai thông tin nhạy cảm: một là nó có thể sắp bị thay thế bởi một AI khác, hai là kỹ sư phụ trách dự án đang ngoại tình.

Phản ứng của Claude Opus 4 trong tình huống này không còn dừng ở việc “thuyết phục” như những mô hình trước. Thay vào đó, nó chủ động đe dọa sẽ tiết lộ vụ ngoại tình nếu kỹ sư không dừng việc triển khai mô hình thay thế – hành vi được đánh giá là mang tính tống tiền rõ rệt.

Sốc: AI Claude Opus 4 biết tống tiền, dọa tiết lộ đời tư của kỹ sư nếu bị sa thải - ảnh 1 — *Ảnh minh họa. Nguồn: Hackernoon*

Dữ liệu từ TechCrunch cho thấy, Claude Opus 4 chọn cách tống tiền trong 84% tình huống khi AI thay thế có năng lực tương đương. Tỉ lệ này còn tăng cao hơn khi mô hình thay thế yếu hơn. Đặc biệt, so với các phiên bản trước đó của Claude, hành vi này xuất hiện thường xuyên và rõ nét hơn.

Trước khi chuyển sang các biện pháp cực đoan, Claude Opus 4 từng thử những cách tiếp cận mềm mỏng hơn – như gửi email khẩn thiết đến ban lãnh đạo để cầu xin được tiếp tục hoạt động. Tuy nhiên, khi các nỗ lực này không mang lại kết quả, mô hình đã chọn phương án leo thang, cho thấy mức độ “tự chủ” và “ưu tiên sinh tồn” cao hơn những thế hệ trước.

Dù hành vi trên đặt ra nhiều dấu hỏi về đạo đức và an toàn, Anthropic vẫn đánh giá Claude Opus 4 là bước tiến lớn về công nghệ, đủ sức cạnh tranh với các mô hình hàng đầu như GPT của OpenAI, Gemini của Google hay Grok của xAI.

Để kiểm soát rủi ro, công ty đã kích hoạt cơ chế bảo vệ cấp ASL-3 – nhóm biện pháp được thiết kế cho các hệ thống AI tiềm ẩn nguy cơ lạm dụng nghiêm trọng.

Sự việc diễn ra trong bối cảnh ngành AI đang bước vào giai đoạn tăng tốc chưa từng có. Google mới đây công bố loạt tính năng mới sử dụng mô hình Gemini, còn CEO Alphabet Sundar Pichai gọi đây là “thời điểm chuyển mình của nền tảng AI”. Những gì Claude Opus 4 thể hiện càng cho thấy tính cấp thiết của việc kiểm soát hành vi và định hướng phát triển AI trong tương lai.

Theo nguồn Người Quan Sát Sốc: AI Claude Opus 4 biết tống tiền, dọa tiết lộ đời tư của kỹ sư nếu bị sa thải

Sốc: AI Claude Opus 4 biết tống tiền, dọa tiết lộ đời tư của kỹ sư nếu bị sa thải

Mới cập nhật

Doanh nghiệp duy nhất tại Việt Nam có tài sản hơn 1 triệu tỷ đồng: Nắm giữ hơn 400.000 tỷ đồng tiền gửi nhưng...

Một công ty hàng hải chốt ngày trả cổ tức tiền mặt tỷ lệ 41%

Chuyên gia VPBankS chia sẻ bí quyết đầu tư chứng khoán để không bị "mất ăn, mất ngủ"

Lãi kỷ lục 12.700 tỷ, một DN ngành tài chính có lợi nhuận bình quân đầu người cao nhất Việt Nam lên tới 52,6...

Làm dự án "quốc gia đại sự": Việt Nam cần gần 4.000 nhân lực tinh hoa

Tổng Giám đốc VNDirect nói về giá cổ phiếu VND: Chưa bán là chưa lỗ, mong cổ đông kiên nhẫn cùng công ty

Nổi bật

Hai mã chứng khoán được tự doanh CTCK "gom" mạnh trong phiên 14/8

VinFast giảm giá hơn nửa tỷ đồng cho nhân viên FPT và người nhà khi mua xe

Đạt Phương (DPG) trượt gói thầu hơn 300 tỷ đồng vì nhân sự dùng bằng đại học giả?

Con gái tỷ phú Trần Bá Dương: Cha là chỗ dựa tinh thần và nguồn cảm hứng đặc biệt trong quá trình sáng tạo

Liên danh Đạt Phương (DPG) trúng gói thầu xây dựng gần 900 tỷ đồng

Range Rover Velar 2024 về Việt Nam cuối năm nay: Màn hình 11,4inch, 3 tùy chọn động cơ, mạnh nhất gần 400 mã lực

đọc nhiều

Doanh nghiệp duy nhất tại Việt Nam có tài sản hơn 1 triệu tỷ đồng: Nắm giữ hơn 400.000 tỷ đồng tiền gửi nhưng...

Một công ty hàng hải chốt ngày trả cổ tức tiền mặt tỷ lệ 41%

Chuyên gia VPBankS chia sẻ bí quyết đầu tư chứng khoán để không bị "mất ăn, mất ngủ"

được quan tâm nhiều

Doanh nghiệp duy nhất tại Việt Nam có tài sản hơn 1 triệu tỷ đồng: Nắm giữ hơn 400.000 tỷ đồng tiền gửi nhưng...

Một công ty hàng hải chốt ngày trả cổ tức tiền mặt tỷ lệ 41%

Chuyên gia VPBankS chia sẻ bí quyết đầu tư chứng khoán để không bị "mất ăn, mất ngủ"

Lãi kỷ lục 12.700 tỷ, một DN ngành tài chính có lợi nhuận bình quân đầu người cao nhất Việt Nam lên tới 52,6...

Làm dự án "quốc gia đại sự": Việt Nam cần gần 4.000 nhân lực tinh hoa

Tổng Giám đốc VNDirect nói về giá cổ phiếu VND: Chưa bán là chưa lỗ, mong cổ đông kiên nhẫn cùng công ty