OpenAI 에서 공개한 "프런티어 추론 모델에서의 잘못된 행동 감지" 논문 입니다.
openai blog: https://openai.com/index/chain-of-thought-monitoring/
현재 추론 모델이 CoT 모니터링을 통해 AI 모델의 잘못된 부분을 사전에 파악할 수 있다는 논문입니다. 심지어 이런 이유가 있지만 오픈AI 추론모델은 추론과정을 서비스에서 보여주지 않고 있죠. (OpenAI 에서는 CoT 과정이 노출되는 것은 일보 오용가능성 등이 있기에 아직 이 과정을 노출하는 것이 적절치 않다고 판단했다고 합니다.)
아무튼 OpenAI는 그래서 CoT로 예상하지 못한 보상해킹을 많이 잡을 수 있었다고 하네요.
마침 최근 앤트로픽에서는 추론모델의 CoT 를 그대로 믿을 수 없다고 공개했어요. 물론 OpenAI 도 CoT 과정에서 직접 RL 학습으로 수정하면 모델이 CoT에 의도를 점점 숨기는 방식으로 변할 수 있다는 것을 언급했으며, CoT 과정 자체보다는 최종 결과를 보상하는 방식으로 학습 튜닝하라고 권고합니다.
그럼에도 CoT 로 모니터링하는 것의 한계를 지적했다는 점에서 앤트로픽이 OpenAI가 CoT 로 정렬과정을 진행하는 부분에 대해 문제를 삼았다고 볼 수 도 있을 것 같습니다. ㅎㅎ
참고가 되는 앤트로픽 연구: https://www.snippod.com/snip/mer84k0hc3yj
OpenAI 에서 공개한 "프런티어 추론 모델에서의 잘못된 행동 감지" 논문 입니다. openai blog: https://openai.com/index/chain-of-thought-monitoring/ 현재 추론 모델이 CoT 모니터링을 통해 AI 모델의 잘못된 부분을 사전에 파악할 수 있다는 논문입니다. 심지어 이런 이유가 있지만 오픈AI 추론모델은 추론과정을 서비스에서 보여주지 않고 있죠. (OpenAI 에서는 CoT 과정이 노출되는 것은 일보 오용가능성 등이 있기에 아직 이 과정을 노출하는 것이 적절치 않다고 판단했다고 합니다.) 아무튼 OpenAI는 그래서 CoT로 예상하지 못한 보상해킹을 많이 잡을 수 있었다고 하네요. 마침 최근 앤트로픽에서는 추론모델의 CoT 를 그대로 믿을 수 없다고 공개했어요. 물론 OpenAI 도 CoT 과정에서 직접 RL 학습으로 수정하면 모델이 CoT에 의도를 점점 숨기는 방식으로 변할 수 있다는 것을 언급했으며, CoT 과정 자체보다는 최종 결과를 보상하는 방식으로 학습 튜닝하라고 권고합니다. 그럼에도 CoT 로 모니터링하는 것의 한계를 지적했다는 점에서 앤트로픽이 OpenAI가 CoT 로 정렬과정을 진행하는 부분에 대해 문제를 삼았다고 볼 수 도 있을 것 같습니다. ㅎㅎ 참고가 되는 앤트로픽 연구: https://www.snippod.com/snip/mer84k0hc3yj
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
Mitigating reward hacking--where AI systems misbehave due to flaws or misspecifications in their learning objectives--remains a key chall…