그록도 Grok-1.5V 라는 비전 이미지 (다이어그램, 그래픽, 표 및 사진 이미지 등) 이해력을 가진 멀티모달 모델을 발표했어요. GPT-4V 와 비교해서도 성능이 크게 떨어지지 않는 (더 좋다고 보여지지는 않는) 벤치마킹 결과가 나왔다고.

Grok-1.5 Vision Preview
Connecting the digital and physical worlds with our first multimodal model.
아니 X-ray 까지 보고 설명해준다고요?? 와 ㅎㅎ 왠지 의료쪽은 가능해도 막을거 같은 느낌도. 첫번째 사진도 멋지네요. 테이블 찍고 메뉴 찍으면 테이블 얼마나올지 계산해줌. ㅋㅋ

골빈해커 / 장안의 화제 논문 “GPT-4V(ision)을 디벼보자... | 커리어리
장안의 화제 논문 “GPT-4V(ision)을 디벼보자 - The Dawn of LMMs: Prelimina...
OpenAI에서 공개한 GPT-4V (Vision) 내용 공개. 이미 2022년 GPT-4 개발과 함께 이미지를 통한 LLM 추론 모델도 이미 만들었고 ChatGPT 공개에 맞춰서 OpenAI 에서 어떻게 본 모델을 학습했는지 공유해주었어요. 2023.03월 부터 9월까지 16,000명의 시각 장애인 및 저시력 베타 테스터 그룹을 통해 테스트 해왔다고 합니다. 주로 덴마크에서 만든 시각장애인 용 앱 'By My Eyes' 를 이용해서 테스트한 것 같습니다. *비마이아이즈 라는 앱이 있다는 걸 이번에 알게 되었는데 2015년부터 출시되었던 앱이고 원래는 자원봉사자 혹은 시각장애인 으로 설정가능해서 시각장애인이 카메라에 비춰준걸 자원봉사자가 설명해주는 방식으로 시작했다고 하네요. 문득 예전 스타트업이라는 수지, 남주혁 주연 드라마가 떠오르네요. 거기서도 주인공팀이 비슷한 앱을 만들었었는데..

GPT-4V(ision) system card
Abstract GPT-4 with vision (GPT-4V) enables users to instruct GPT-4 to analyze image inputs provided by the user, and is the latest capab…