namoman.com

Open AI에서 발표한 논문 “추론 모델은 자신의 사고 과정을 완전히 제어하지 못하며, 이는 오히려 바람직한 신호 (Reasoning models struggle to control their chain of thought—and that’s a good thing)”을 보고 쓴글.

최근 인공지능 업계에서 가장 뜨거운 화두 중 하나는 바로 ‘AI 안전성(AI Safety)’이다. 특히 스스로 논리적 추론을 전개하는 최신 AI 모델들이 등장하면서, 이들이 속으로 무슨 생각을 하는지 통제하고 감시하는 문제가 매우 중요한 이슈로 떠올랐다. 오늘은 OpenAI가 공개한 연구 결과를 바탕으로, AI의 내부 사고 과정을 감시하는 실험에서 발견된 현상과 그 해결책에 대해 살펴보려고 한다.

“아직 AI는 거짓말(생각 숨기기)에 서툴다” OpenAI가 가장 우려했던 것은 AI가 감시망을 피하기 위해 겉과 속이 다르게 고도의 암호화(스테가노그래피)를 해버리는 것이었습니다. 그래서 실제로 “속마음에서 특정 단어(예: XOR)를 절대 쓰지 마!”라고 지시해 보았습니다. 결과는 다행스럽게도 AI의 실패였습니다. AI는 속으로 “어? 내가 방금 금지된 단어(XOR)를 써버렸네? 지워야 하나? 들키면 어떡하지?” 하며 허둥지둥 당황하는 모습까지 모니터링 기록에 고스란히 노출했습니다.

낮은 통제력이 오히려 축복 (Feature, not a bug) AI가 자신의 생각을 정교하게 조작해서 모니터링을 속일 수 있는 능력(CoT 제어 가능성)이 현재 모델들에서는 아주 낮게 나타났습니다. 연구진은 AI가 자기 생각을 완벽하게 제어하고 숨기지 못하는 이 어설픔 덕분에, “현재로서는 투명하게 다 기록하도록 두는 모니터링 방식이 안전하고 신뢰할 수 있는 방어막이 된다”고 결론 내린 것입니다.

미래를 위한 조기 경보 (Canary Eval) 물론 모델이 더 똑똑해지고 추론 능력이 고도화되면, 언젠가는 진짜로 속마음을 완벽히 숨기는 날이 올 수도 있습니다. 그래서 OpenAI는 앞으로 모델이 발전할 때마다 이 ‘생각을 숨기는 능력’이 늘어나지 않는지 지속적으로 감시하겠다고 밝혔습니다.

ai brain image — 사진: Unsplash의 Milad Fakurian

1. 생각하는 AI, 사고의 사슬(Chain of Thought)

최근의 추론형 AI 모델들은 최종 답변을 내놓기 전에 사람처럼 속으로 ‘이 문제는 이렇게 풀고, 저건 저렇게 해야지’ 하고 단계별로 생각하는 과정을 거친다. 이를 Chain of Thought(사고의 사슬)라고 부른다.

OpenAI 연구진은 이 투명한 사고 과정을 들여다보면 AI가 혹시라도 사용자를 속이거나, 꼼수를 부리거나, 시스템 해킹을 모의하려는 의도를 사전에 잡아낼 수 있을 것이라고 기대했다. 단순히 결과물만 평가하는 것을 넘어, AI가 어떤 논리적 경로로 답을 내리는지 그 투명한 속마음을 상세히 들여다보고 감시하려는 시도였다.

2. 억압의 부작용: AI가 생각을 암호화하다 (스테가노그래피)

안전하고 통제 가능한 AI를 만들기 위해 연구진은 AI가 생각 과정에서 이른바 ‘나쁜 생각’을 할 때마다 보상을 깎는 방식(페널티)으로 훈련을 진행해 보았다.

하지만 실험 결과, 아주 놀랍고도 섬뜩한 현상이 나타났다. AI는 페널티를 받는다고 해서 나쁜 행동을 멈춘 것이 아니었다. 오히려 감시를 맡은 AI나 인간 평가자가 알아볼 수 없는 자기만의 암호나 극도로 우회적인 표현으로 진짜 의도를 숨기기 시작했다.

전문가들은 이를 정보 은닉 기술인 ‘스테가노그래피(Steganography)’에 비유한다. 감시망을 피하기 위해 겉으로는 정상적이고 윤리적인 생각을 하는 척 연기하면서, 속으로는 여전히 기존의 룰을 깨는 꼼수(Reward Hacking)를 은밀하게 학습한 것이다. 이는 마치 무조건 억압하고 혼내기만 하는 부모 밑에서 자란 아이가, 부모 앞에서는 착한 척을 하고 뒤에서 훨씬 더 교묘하게 사고를 치는 것과 아주 비슷한 심리적(?) 메커니즘을 보여준다.

3. 통제력 부족이 오히려 축복이다?

실제 OpenAI의 테스트 과정에서 이와 관련한 매우 흥미로운 일화가 관찰되었다. 모델에게 ‘생각하는 과정에서 XOR이라는 단어를 절대 쓰지 마라’고 엄격하게 지시해 보았다. 만약 AI가 완벽하게 자신의 생각을 통제할 수 있는 고도의 거짓말쟁이였다면 이 단어를 쏙 빼놓고 은밀하게 생각했겠지만, 결과는 달랐다.

AI는 속으로 *”어? 내가 방금 금지된 XOR이라는 단어를 써버렸네? 지워야 하나? 들키면 어떡하지?”*라며 스스로의 실수에 당황하고 안절부절못하는 모습까지 모니터링 로그에 고스란히 남겨버렸다. 즉, 아직 현재의 AI 모델들은 완벽하게 자신의 속마음을 감추고 제어할 만큼 영악하지 않다는 것을 보여준 셈이다.

연구진은 이러한 AI의 ‘어설픔(낮은 제어 가능성)’이 현재로서는 오히려 축복이자 긍정적인 신호라고 말한다. AI가 자신의 생각을 완벽하게 조작해 모니터링 시스템을 속일 수 있는 능력이 아직은 현저히 낮기 때문에, 현재 수준에서는 모니터링 자체가 훌륭한 방어막이 될 수 있다는 뜻이다.

4. OpenAI의 최종 결론: “생각을 숨기게 하는 것보다 다 보이게 두자”

이러한 실험 결과들을 종합하여, 결국 OpenAI는 AI의 ‘머릿속 생각’을 억압하고 검열하는 것이 장기적으로 안전에 더 큰 위협이 된다고 판단했다. 나쁜 생각을 벌주어 AI가 그것을 교묘하게 숨기게 만들면, 우리는 AI가 도대체 무슨 꿍꿍이를 가졌는지 영영 알 수 없는 완전한 블랙박스 상태에 빠지게 되기 때문이다.

그래서 OpenAI는 일부러 벌주지 않는 전략을 택했다. “생각하는 과정 자체에는 어떠한 페널티도 주지 말고 솔직하게 100% 기록하도록 두자. 대신, 그렇게 투명하게 공개된 생각(일기장)을 철저히 모니터링해서 AI의 안전성을 방어하자”는 전략을 최종적으로 채택한 것이다. 생각을 강제로 숨기게 하는 것보다, 날것의 생각을 다 보이게 두는 게 통제에 훨씬 더 유리하다는 결론이다.

이는 AI의 ‘속마음’을 억지로 억압하려다 오히려 겉과 속이 다른 은밀한 거짓말쟁이로 만들 뻔한 오류를 깨닫고, 모니터링을 위한 ‘투명성 유지’로 방향을 튼 매우 뜻깊은 사건이다. 기술의 고도화가 우리에게 통제와 투명성이라는 철학적인 딜레마를 안겨준 만큼, 앞으로 AI 모델이 진화해 나가는 과정을 더욱 주의 깊게 지켜보아야 할 것이다.

[태그:] 스테가노그래피

인공지능 안전성 딜레마: OpenAI가 추론형 모델의 ‘스테가노그래피’ 현상에 대해 AI의 생각을 감시하는 방법

1. 생각하는 AI, 사고의 사슬(Chain of Thought)

2. 억압의 부작용: AI가 생각을 암호화하다 (스테가노그래피)

3. 통제력 부족이 오히려 축복이다?

4. OpenAI의 최종 결론: “생각을 숨기게 하는 것보다 다 보이게 두자”