OpenAI Research 연구 내용 발표 new 블로그 포스트
제목: weak-to-strong generalization.
OpenAI Superalignment Generalization Team (논문 저자 목록을 보면 일리야 수츠케버 등 12명) 에서 발표한 내용 입니다.
기본적으로 RLHF 강화학습은 인간이 피드백을 주는 방식인데요. 이 방식은 사람이 최종 판단을 하면서 강화시키는 방식인데, 초인간 (Superhuman) 모델의 경우 오히려 사람이 판단하면 할 수록 인간 수준으로 모델 성능을 낮추기 때문에 최종적으로 인간보다 뛰어난 모델을 만들 수 없는 한계에 봉착하게 됩니다.
이 문제를 해결하기 위해 GPT-4 를 GPT-2 수준의 supervisor 모델로 파인튜닝하면서도 크게 낮추지 않고 보조 손실 함수 (an auxiliary confidence loss) 를 이용 GPT-3.5 수준으로 만들 수 있었던 연구 방법을 제시합니다. 기존 방법의 경우 GPT-4 모델을 GPT-2 감독자로 파인튜닝하면 GPT 2.8 수준으로 낮아지는데 반해 이 방법을 이용하면 GPT 3.4 수준으로만 낮아졌어요.
github: https://github.com/openai/weak-to-strong
OpenAI Research 연구 내용 발표 new 블로그 포스트 제목: weak-to-strong generalization. OpenAI Superalignment Generalization Team (논문 저자 목록을 보면 일리야 수츠케버 등 12명) 에서 발표한 내용 입니다. 기본적으로 RLHF 강화학습은 인간이 피드백을 주는 방식인데요. 이 방식은 사람이 최종 판단을 하면서 강화시키는 방식인데, 초인간 (Superhuman) 모델의 경우 오히려 사람이 판단하면 할 수록 인간 수준으로 모델 성능을 낮추기 때문에 최종적으로 인간보다 뛰어난 모델을 만들 수 없는 한계에 봉착하게 됩니다. 이 문제를 해결하기 위해 GPT-4 를 GPT-2 수준의 supervisor 모델로 파인튜닝하면서도 크게 낮추지 않고 보조 손실 함수 (an auxiliary confidence loss) 를 이용 GPT-3.5 수준으로 만들 수 있었던 연구 방법을 제시합니다. 기존 방법의 경우 GPT-4 모델을 GPT-2 감독자로 파인튜닝하면 GPT 2.8 수준으로 낮아지는데 반해 이 방법을 이용하면 GPT 3.4 수준으로만 낮아졌어요. github: https://github.com/openai/weak-to-strong
Weak-to-strong generalization
We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization prope…
그리고 OpenAI 이런 연구에 대한 $10M 지원금 발표: https://www.snippod.com/snip/ubk57iv3960z