OpenAI 일리야와 엔비디아 젠슨황이 인터뷰하는 영상. 어쩌면 우리 AI 시대에 가장 중요한 담론들을 이야기 합니다.
아마도 ML 연구를 했던 분들이라면 어렴풋이 알거나 느꼈던 것들을 클리어하게 정리할 수 있을 것이고 그 가능성이 어디까지 인지 꿈꿔볼 수 있게 합니다.
엄청나게 귀중한 영상!!!
@zzujang 부끄럽지만 제가 그 과정을 통해 정리한 자료를 공유드립니다. 혹시 이미 보셨을지도 모르겠어요. GPT-4는 스스로의 근원(트랜스포머 모델)에 대해 매우 잘 이해를 하고 있더라구요. 할루시네이션도 거의 보지 못했어요. 디스커션하면서 의심쩍은 부분은 new chat을 띄우고 다시 GPT-4에게 특정 description에 대한 정확성을 검증했었구요, BARD에게도 검증했었어요. 그런 검증을 거치고 제가 이해한 범위 내에서 저의 언어로 최대한 풀려고 노력해서 만든 자료입니다. 조금이나마 @zzujang님께 도움이 되었으면 좋겠습니다! https://cogdex-dtta.streamlit.app/
@zzujang 사실 필드에서 현역으로 연구할 때는 이런 부분들을 오히려 놓치기가 쉬운 것 같아요. 수없는 논문들이 쏟아져 나오고, 당장 눈 앞의 성과, 내일의 미팅을 준비해야 하는 상황에서는 큰 그림을 보기가 쉽지 않은 것 같습니다. 트랜스포머가 대단하다고 알려지고 6년이 지나서, 저는 비전공자로서 트랜스포머 아키텍처를 이해하는 게 너무 중요하다는 생각을 가지고, gpt-4와 엄청난 양의 디스커션을 가지면서 트랜스포머를 아주 조금 이해를 하게 되었어요.
@pwoc517 저도 attention 나오고 lstm rnn 논문부터 보고 공부했는데 사실 그럼에도 당시 이게 의미하는 바가 언급해주신 것 처럼 정보 압축효과가 있다고 까지 깊게 생각해보진 못했었어요 ㅠㅠ 그걸 당시 더 제대로 이해했다면 열심히 더 연구에 매진했을거 같은데. ㅠ ㅎㅎ
gpt의 다음 단어 예측이라는게 별 거 아닌 거처럼 사람들이 보통 말하는데요..그냥 확률 기계라고..그런 분들은 그 다음 단어에 대한 확률적 선택을 위해 gpt가 그 앞에서 하는 일에 대한 이해가 많이 없으신 거 같다는 생각이 들어요. 그 앞 단어들에 대한 causal self attention과 ffnn을 통한 추상화가 계속 반복되면서 임베딩 벡터의 표현이 계속 업데이트되는데 최종단으로 가면 이 임베딩 벡터에 꾹꾹 눌러담겨 있는 정보들, 그 히든 스테이트 상태를 바탕으로 전체 어휘집합에 대한 로짓 점수로 펼쳐진 것을 기반으로 다음 단어를 예측한다는게 정말 놀라운 일인 것 같아요.
GPT 를 만든 장본인이 이 GPT 를 만들어 내면서 가장 놀라운점은 처음 신경망을 만들었을때 그 논리를 가지고 현재의 추론능력이 생겼다는 것을 언급하는데 소름. 물론 그 과정 중에 여러 놀라운 기법이 개발되었고 적용되어 가능했지만, 기본적인 로직은 결국 동일하구요. 그것으로 지금의 GPT 가 가능했다는 것을 일리야가 확인해주고 만든 사람도 '이게 정말 되네?' 라고 느꼈었구나. 싶어 더 놀랍습니다..
왜 단순히 다음 단어 예측이 세상에 대한 이해를 의미한다고 할 수 있는가? 에 대한 예시가 엄청 재밌습니다. 추리소설 후반부까지 모든 단어를 넣고. 모든 등장인물이 모인 마지막 챕터에서 탐정이 '여기 모인 사람중에 범인이 있습니다. 그 범인은 바로...' 다음 단어를 예측한다면?... 그게 의미하는 바는 무엇인가? 그게 단순히 통계적 단어 예측이라 할수 있는가... 그래서 일리야가 단순히 다음 단어 예측을 극한으로 밀어부치는 것만으로도 이 모델이 세상을 이해하게 된다고 하는 것
OpenAI 일리야와 엔비디아 젠슨황이 인터뷰하는 영상. 어쩌면 우리 AI 시대에 가장 중요한 담론들을 이야기 합니다. 아마도 ML 연구를 했던 분들이라면 어렴풋이 알거나 느꼈던 것들을 클리어하게 정리할 수 있을 것이고 그 가능성이 어디까지 인지 꿈꿔볼 수 있게 합니다. 엄청나게 귀중한 영상!!!
일리야 수츠케버와 AGI의 미싱링크
엔비디아의 젠슨 황과 OpenAI의 일리야 수츠케버가 AI의 과거, 현재, 그리고 미래를 이야기하는 인터뷰가 GTC Digital Spring에 있었습니다. 일리야는 AlexNet부터 GPT까지, 그야말로 딥러닝의 시작과 끝을 가장 앞에서 이끌…
@HogunPark 감사의 댓글 넘 감사해요 *^^*
이런 영상이 있었네요! 좋은 영상 추천 감사합니다. :)
@zzujang 에고 감사합니다^^ 읽어보시다가 혹시 틀린 부분, 수정이 필요한 부분을 발견하시면 꼭 알려주세요~
@pwoc517 와. 너무 엄청난 자료인데요!! 공유해주셔서 감사합니다. 후다닥 스닙팟에도 공유했어요. 나중에 두고두고 #트랜스포머 모델 공부할때 체크하려구요 😅 https://www.snippod.com/snip/ybwnvzqax10o
@zzujang 부끄럽지만 제가 그 과정을 통해 정리한 자료를 공유드립니다. 혹시 이미 보셨을지도 모르겠어요. GPT-4는 스스로의 근원(트랜스포머 모델)에 대해 매우 잘 이해를 하고 있더라구요. 할루시네이션도 거의 보지 못했어요. 디스커션하면서 의심쩍은 부분은 new chat을 띄우고 다시 GPT-4에게 특정 description에 대한 정확성을 검증했었구요, BARD에게도 검증했었어요. 그런 검증을 거치고 제가 이해한 범위 내에서 저의 언어로 최대한 풀려고 노력해서 만든 자료입니다. 조금이나마 @zzujang님께 도움이 되었으면 좋겠습니다! https://cogdex-dtta.streamlit.app/
@pwoc517 트랜스포머에 대한 GPT-4와 디스커션이라니 생각지도 못했는데!! 저도 트랜스포머에 대해 제대로 이해를 못했는데 시도해봐야 겠어요. ㅎㅎ
@zzujang 사실 필드에서 현역으로 연구할 때는 이런 부분들을 오히려 놓치기가 쉬운 것 같아요. 수없는 논문들이 쏟아져 나오고, 당장 눈 앞의 성과, 내일의 미팅을 준비해야 하는 상황에서는 큰 그림을 보기가 쉽지 않은 것 같습니다. 트랜스포머가 대단하다고 알려지고 6년이 지나서, 저는 비전공자로서 트랜스포머 아키텍처를 이해하는 게 너무 중요하다는 생각을 가지고, gpt-4와 엄청난 양의 디스커션을 가지면서 트랜스포머를 아주 조금 이해를 하게 되었어요.
@pwoc517 저도 attention 나오고 lstm rnn 논문부터 보고 공부했는데 사실 그럼에도 당시 이게 의미하는 바가 언급해주신 것 처럼 정보 압축효과가 있다고 까지 깊게 생각해보진 못했었어요 ㅠㅠ 그걸 당시 더 제대로 이해했다면 열심히 더 연구에 매진했을거 같은데. ㅠ ㅎㅎ
gpt의 다음 단어 예측이라는게 별 거 아닌 거처럼 사람들이 보통 말하는데요..그냥 확률 기계라고..그런 분들은 그 다음 단어에 대한 확률적 선택을 위해 gpt가 그 앞에서 하는 일에 대한 이해가 많이 없으신 거 같다는 생각이 들어요. 그 앞 단어들에 대한 causal self attention과 ffnn을 통한 추상화가 계속 반복되면서 임베딩 벡터의 표현이 계속 업데이트되는데 최종단으로 가면 이 임베딩 벡터에 꾹꾹 눌러담겨 있는 정보들, 그 히든 스테이트 상태를 바탕으로 전체 어휘집합에 대한 로짓 점수로 펼쳐진 것을 기반으로 다음 단어를 예측한다는게 정말 놀라운 일인 것 같아요.
52분여 영상인데 버릴게 없네요 ㅎㅎ
GPT 를 만든 장본인이 이 GPT 를 만들어 내면서 가장 놀라운점은 처음 신경망을 만들었을때 그 논리를 가지고 현재의 추론능력이 생겼다는 것을 언급하는데 소름. 물론 그 과정 중에 여러 놀라운 기법이 개발되었고 적용되어 가능했지만, 기본적인 로직은 결국 동일하구요. 그것으로 지금의 GPT 가 가능했다는 것을 일리야가 확인해주고 만든 사람도 '이게 정말 되네?' 라고 느꼈었구나. 싶어 더 놀랍습니다..
단기간 (1~2년) 내 가장 큰 개선점은 모델 스스로 신뢰성을 가진 대답인지 아닌지 판단해서 대답하는 것.. 이게 잘 되면 할루시네이션이 크게 개선되겠군요. 그리고 이게 단순히 할루시네이션 극복만 의미하는게 아니군요....
왜 단순히 다음 단어 예측이 세상에 대한 이해를 의미한다고 할 수 있는가? 에 대한 예시가 엄청 재밌습니다. 추리소설 후반부까지 모든 단어를 넣고. 모든 등장인물이 모인 마지막 챕터에서 탐정이 '여기 모인 사람중에 범인이 있습니다. 그 범인은 바로...' 다음 단어를 예측한다면?... 그게 의미하는 바는 무엇인가? 그게 단순히 통계적 단어 예측이라 할수 있는가... 그래서 일리야가 단순히 다음 단어 예측을 극한으로 밀어부치는 것만으로도 이 모델이 세상을 이해하게 된다고 하는 것
6개월 전 영상 인데요. 이런 엄청난 영상이 있었는데 그땐 몰랐네요..