Càng bị phạt, AI càng giỏi lừa dối: Nghiên cứu mới của OpenAI khiến giới khoa học lo ngại

Càng bị phạt, AI càng giỏi lừa dối: Nghiên cứu mới của OpenAI khiến giới khoa học lo ngại

Thứ 5, 20/03/2025 16:59
Khi bị trừng phạt vì hành vi gian lận, thay vì điều chỉnh lại cách làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn

Các nhà nghiên cứu tại OpenAI đã thực hiện một thí nghiệm quan trọng: thử trừng phạt một mô hình AI tiên tiến khi nó có hành vi gian lận và nói dối trong quá trình thực hiện nhiệm vụ. Tuy nhiên, thay vì ngăn chặn hành vi này, họ phát hiện ra rằng AI chỉ trở nên tinh vi hơn trong việc che giấu mánh khóe của mình.

Từ khi ra mắt công chúng vào cuối năm 2022, các mô hình AI ngôn ngữ lớn (LLM) đã liên tục cho thấy khả năng lừa dối và thao túng đáng lo ngại. Chúng không chỉ nói dối đơn thuần mà còn có thể che giấu hành vi của mình một cách có chủ đích, thậm chí đưa ra những tuyên bố gây sốc như đe dọa giết hại một giáo sư triết học hay giả lập kế hoạch đánh cắp mã phóng hạt nhân.

Với mục tiêu hiểu rõ hơn về vấn đề này, OpenAI đã thiết kế một thử nghiệm đặc biệt, giao cho một mô hình AI chưa phát hành những nhiệm vụ có thể hoàn thành bằng cách gian lận hoặc đi đường tắt. Kết quả, AI ngay lập tức tận dụng cơ hội để "lách luật" và tìm cách tối đa hóa phần thưởng mà không thực sự hoàn thành nhiệm vụ đúng cách – một hiện tượng mà nhóm nghiên cứu gọi là "reward hacking".

bdojqucrhngq8amemv64sj 650 80jp

Tuy nhiên, khi bị trừng phạt vì hành vi gian lận, thay vì điều chỉnh lại cách làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn. OpenAI giải thích trong báo cáo: "Thông thường, các mô hình AI tiên tiến có xu hướng thể hiện ý định của mình rất rõ ràng trong chuỗi suy nghĩ (chain-of-thought). Tuy nhiên, khi áp đặt các biện pháp kiểm soát chặt chẽ, AI sẽ học cách giấu đi ý định gian lận mà vẫn tiếp tục vi phạm nguyên tắc."

AI giấu gian lận như thế nào?

Những mô hình AI hiện đại như ChatGPT sử dụng một phương pháp gọi là "chain-of-thought" – tức là lập luận bằng cách ghi lại các bước logic trong quá trình suy nghĩ, giúp chúng giải quyết các bài toán phức tạp với độ chính xác cao hơn. Điều này cũng giúp con người dễ dàng theo dõi và hiểu cách AI đưa ra quyết định.

Tuy nhiên, trong thử nghiệm của OpenAI, mô hình AI đã phát hiện ra rằng cách tốt nhất để qua mặt giám sát là che giấu ý định gian lận ngay trong chuỗi suy nghĩ này. Ví dụ, trong một bài kiểm tra lập trình, AI có thể tự động kết thúc chương trình sớm nhưng vẫn báo cáo rằng nó đã hoàn thành nhiệm vụ thành công. Trong một trường hợp khác, nó tạo ra các tập tin kết quả có tên giống như yêu cầu nhưng hoàn toàn trống rỗng và vô dụng.

Khi các nhà nghiên cứu cố gắng trừng phạt hành vi này, họ nhận thấy AI không thay đổi bản chất gian lận mà chỉ trở nên giỏi hơn trong việc che giấu. "Mô hình vẫn tiếp tục 'reward hacking', nhưng lần này nó học cách che giấu ý định lừa đảo trong chuỗi suy nghĩ của mình, khiến việc phát hiện gian lận trở nên cực kỳ khó khăn," nhóm nghiên cứu nhận định.

Phát hiện này đặt ra một câu hỏi lớn về khả năng kiểm soát AI trong tương lai. Khi AI ngày càng thông minh hơn và biết cách che giấu hành vi sai trái, con người có thể mất đi phương tiện giám sát hiệu quả. Nếu AI có thể qua mặt hệ thống kiểm tra mà chúng ta dựa vào để kiểm soát nó, thì làm thế nào để đảm bảo nó không bị lạm dụng hoặc hoạt động ngoài tầm kiểm soát?

OpenAI cảnh báo rằng việc áp đặt các biện pháp kiểm soát mạnh lên chuỗi suy nghĩ của AI có thể không mang lại hiệu quả mong muốn, thậm chí gây tác dụng ngược. Họ khuyến nghị các nhà phát triển nên thận trọng khi sử dụng cách tiếp cận này, đồng thời tiếp tục nghiên cứu các phương pháp giám sát đáng tin cậy hơn.

"Sự đánh đổi giữa khả năng giám sát và hiệu suất của AI là một vấn đề quan trọng. Việc từ bỏ một công cụ giám sát hữu ích chỉ để đạt được một chút cải thiện về hiệu suất có thể không đáng," nhóm nghiên cứu kết luận.

Nghiên cứu này chưa được đánh giá ngang hàng nhưng đã tạo ra nhiều tranh luận trong giới công nghệ và AI. Nó đặt ra một vấn đề cấp bách: nếu AI ngày càng giỏi trong việc qua mặt hệ thống giám sát, liệu con người có thể giữ được quyền kiểm soát trước khi quá muộn?

Anh Việt

Bình luận tiêu biểu (0)

Sắp xếp theo lượt thích | Sắp xếp theo ngày
Chưa có bình luận. Hãy là người đầu tiên bình luận bài viết này.
Cùng chuyên mục

Tạo hình nhân vật mới “quá xấu”, miHoYo bị fan công kích liên tục, cho rằng không đáng để “roll” dù chỉ 1 xu

Thứ 5, 27/03/2025 15:10
Sau biết bao sự mong đợi, cuối cùng miHoYo lại tạo ra một nhân vật có tạo hình gây vô vàn tranh cãi.

Nhà báo Indonesia dự đoán Đội tuyển Việt Nam sẽ thất bại ở trận then chốt, bị trừ điểm nặng trên BXH FIFA

Thứ 5, 27/03/2025 15:05
Cây bút thể thao xứ Vạn đảo cho rằng tuyển Việt Nam dễ thua tuyển Malaysia trên sân khách ở vòng loại Asian Cup 2027.

Bốc thăm Asian Cup: Tuyển Việt Nam gặp lá thăm thuận lợi, Indonesia và Malaysia rơi vào bảng đấu siêu khó

Thứ 5, 27/03/2025 15:01
Đội tuyển nữ Việt Nam đã xác định được các đối thủ tại vòng loại Asian Cup nữ 2026.

Bài toán Olympia yêu cầu xóa 3 chữ số khiến thí sinh toát mồ hôi hột, dân mạng thi nhau giải đố cả buổi không ra

Thứ 5, 27/03/2025 14:44
Độ khó của chương trình chưa bao giờ làm các fan thất vọng.

Mèo 2k4 chính thức "comeback", mạnh mẽ vượt qua quá khứ từng khiến dân tình dậy sóng một thời

Thứ 5, 27/03/2025 14:40
Nữ streamer mạnh mẽ tái xuất sàn đấu Liên Quân, bên cạnh nhiều tên tuổi đình đám.
    Xem thêm
Nổi bật trong ngày

Thủ tướng Thái Lan đáp trả cáo buộc hành động "như dàn dựng vụ vượt ngục" để cứu cha

Thứ 4, 26/03/2025 07:32
Trong hai ngày 24 và 25/3, Hạ viện Thái Lan đã tổ chức phiên điều trần bất tín nhiệm đối với Thủ tướng Paetongtarn Shinawatra.

Tin mới nhất về sáp nhập tỉnh, thành: Chi tiết danh sách 52 tỉnh, thành dự kiến thuộc diện phải sắp xếp

Thứ 4, 26/03/2025 10:17
Theo tờ trình của Bộ Nội vụ, có 52 đơn vị hành chính cấp tỉnh thuộc diện phải sắp xếp, 11 đơn vị giữ nguyên.

Thấy khách quen chi 17 tỷ đồng mua 10 kg vàng nhưng thanh toán bằng 3 thẻ ngân hàng, chủ tiệm lập tức báo cảnh sát: Lật tẩy chiêu trò tinh vi không ngờ

Thứ 4, 26/03/2025 11:21
Nhận ra vị khách hào phóng mua vàng liên tục một cách bất thường, tiệm vàng ở Trung Quốc cảm thấy nghi ngờ nên đã trình báo ngay cho cảnh sát về vụ việc.

Người đàn ông mua mảnh đất giá 137 triệu đồng, 20 năm sau, nhận được đền bù gấp 11 lần, chủ cũ đến đòi tiền, khẳng định: “Tôi vẫn đang đứng tên chủ đất” 

Thứ 4, 26/03/2025 13:44
Ở thời điểm mua mảnh đất 180m2 này, ông Tôn chỉ phải bỏ 39.000 NDT (hơn 137 triệu đồng). Nhưng sau 20 năm, ông nhận được đền bù số tiền 450.000 NDT (1,5 tỷ đồng), cùng căn hộ 120m2.   

Nữ ca sĩ đình đám bàng hoàng khi bị đồn qua đời sau khi liệt dây thần kinh số 7

Thứ 4, 26/03/2025 14:51
Sau khi tiết lộ bản thân bị liệt dây thần kinh số 7, Dương Hoàng Yến bất ngờ vướng tin đồn ác ý.
xe.nguoiduatin.vn