클로드 모델을 제공하고 있는 앤트로픽 에서 LLM 모델 안에서 특정 topic 에 대한 feature 특성을 추출하는 연구에 대한 논문을 발표했습니다.
현재까지 LLM 언어모델은 블랙박스 처럼 다뤄지고 있었는데요. AI 모델 내부가 어떻게 작동해서 대답을 하는지 사람이 이해할 수 있지 못했습니다. 그래서 AI 에 대한 제어도 어려웠구요. 사실 이건 우리의 뇌와도 비슷하죠. 뇌의 구조와 뉴론과 시냅스의 신호 전달 체계정도만을 이해하는 정도로 생각의 과정까지 분석하진 못하듯이 말이죠.
그리고 5/21 안전성과 AI 모델 제어를 위해 앤트로픽에서는 내부 작동방식을 전보다 더 이해할 수 있는 연구를 발표하게 되었습니다. 대형 언어 모델 중 하나인 Claude 3.0 Sonnet 을 통해 수백만개의 개념이 어떻게 표현되는지 알게 되었다고 하구요. LLM 에서 모델 내부를 살펴보는 거의 첫번째 사례라고.
2023.10 부터 이미 토이 수준의 작은 언어 모델에서 특정 개념에 대한 특징들을 추출하는데 성공했고. 이를 LLM 에 적용할 수 있었다고. 물론 이에 따라 과학적으로 설득력이 떨어질 수 있는 부분이 있었지만 여러가지 실험으로 증명했어요.
예를 들어 AI 모델에게 본인은 어떤 form 으로 되어 있냐고 물으면 원래는 물리적인 form 이 없다고 대답하지만, 'golden gate bridge' feature 를 증폭시킨 후 물어보면 본인 form 이 'golden gate bridge' 라고 대답합니다. 이러한 방식으로 원래 scam email 작성을 못하는 모델도 scam email 작성이 가능해지기도 했구요.
이렇게 의도적으로 모델에 변화를 줄 수 있다는 것이 신기한데요. 한편으로는 '골든게이트브릿지'를 강화하면 본인이 골든게이트브릿지 라고 자아의 형태가 바꾸지만 'scam' 을 강화하면 scam 글을 쓸 수 있게 바뀌는 등 feature 증폭이 원하는 결과로 이어질 지는 해보기 전까지는 모르는 상황..
아무튼 이런식으로 모델이 원래 하지 못했던 기능들이 가능해지거나 더 강화시키는 등의 활동도 가능해집니다. 특정 feature 를 뽑는 작업은 상당한 노력과 하드웨어 엔지니어링 리소스가 필요합니다. 모든 topic 에 대한 feature 를 뽑는것은 현재로선 힘들고 또 feature 들을 뽑았다고 어떻게 사용되는지 까지 알 수도 없습니다.
앤트로픽은 이 연구를 어떠한 방식으로든 production 서비스 되는 모델에 반영하지는 않았으며 아직 이제 시작단계로 당장은 이 방법이 안전성을 향상 시킬 수 있는지 에 대한 검증을 시작하고 있지 활용을 고려하는 단계는 아닙니다.
저는 정확히 논문까지는 읽어보지 못했지만 대강 우리 뇌가 어떤 것을 보거나 생각할 때 어떤 뉴론이 활성화 되는지를 찾아낸 연구와 비슷한 느낌을 받았습니다.
클로드 모델을 제공하고 있는 앤트로픽 에서 LLM 모델 안에서 특정 topic 에 대한 feature 특성을 추출하는 연구에 대한 논문을 발표했습니다. 현재까지 LLM 언어모델은 블랙박스 처럼 다뤄지고 있었는데요. AI 모델 내부가 어떻게 작동해서 대답을 하는지 사람이 이해할 수 있지 못했습니다. 그래서 AI 에 대한 제어도 어려웠구요. 사실 이건 우리의 뇌와도 비슷하죠. 뇌의 구조와 뉴론과 시냅스의 신호 전달 체계정도만을 이해하는 정도로 생각의 과정까지 분석하진 못하듯이 말이죠. 그리고 5/21 안전성과 AI 모델 제어를 위해 앤트로픽에서는 내부 작동방식을 전보다 더 이해할 수 있는 연구를 발표하게 되었습니다. 대형 언어 모델 중 하나인 Claude 3.0 Sonnet 을 통해 수백만개의 개념이 어떻게 표현되는지 알게 되었다고 하구요. LLM 에서 모델 내부를 살펴보는 거의 첫번째 사례라고. 2023.10 부터 이미 토이 수준의 작은 언어 모델에서 특정 개념에 대한 특징들을 추출하는데 성공했고. 이를 LLM 에 적용할 수 있었다고. 물론 이에 따라 과학적으로 설득력이 떨어질 수 있는 부분이 있었지만 여러가지 실험으로 증명했어요. 예를 들어 AI 모델에게 본인은 어떤 form 으로 되어 있냐고 물으면 원래는 물리적인 form 이 없다고 대답하지만, 'golden gate bridge' feature 를 증폭시킨 후 물어보면 본인 form 이 'golden gate bridge' 라고 대답합니다. 이러한 방식으로 원래 scam email 작성을 못하는 모델도 scam email 작성이 가능해지기도 했구요. 이렇게 의도적으로 모델에 변화를 줄 수 있다는 것이 신기한데요. 한편으로는 '골든게이트브릿지'를 강화하면 본인이 골든게이트브릿지 라고 자아의 형태가 바꾸지만 'scam' 을 강화하면 scam 글을 쓸 수 있게 바뀌는 등 feature 증폭이 원하는 결과로 이어질 지는 해보기 전까지는 모르는 상황.. 아무튼 이런식으로 모델이 원래 하지 못했던 기능들이 가능해지거나 더 강화시키는 등의 활동도 가능해집니다. 특정 feature 를 뽑는 작업은 상당한 노력과 하드웨어 엔지니어링 리소스가 필요합니다. 모든 topic 에 대한 feature 를 뽑는것은 현재로선 힘들고 또 feature 들을 뽑았다고 어떻게 사용되는지 까지 알 수도 없습니다. 앤트로픽은 이 연구를 어떠한 방식으로든 production 서비스 되는 모델에 반영하지는 않았으며 아직 이제 시작단계로 당장은 이 방법이 안전성을 향상 시킬 수 있는지 에 대한 검증을 시작하고 있지 활용을 고려하는 단계는 아닙니다. 저는 정확히 논문까지는 읽어보지 못했지만 대강 우리 뇌가 어떤 것을 보거나 생각할 때 어떤 뉴론이 활성화 되는지를 찾아낸 연구와 비슷한 느낌을 받았습니다.
Mapping the Mind of a Large Language Model
We have identified how millions of concepts are represented inside Claude Sonnet, one of our deployed large language models. This is the…
인간은 무리지만 인공지능이니까 마음것 찔러보는. ㅎㅎ
문득 예전 베르나르 베르베르 소설 뇌가 떠오르네요. ㅎㅎ