구글이 이번에 정확히 OpenAI GPT-4o 모델과 비슷한 multi modal 처리를 통한 영상과 음성 명령 통합 상호작용을 하고 상당히 빠른 속도까지 갖춘 '프로젝트 아스트라' 데모를 선보였습니다.
영상을 볼 때 OpenAI 만큼 바로 런칭할 수준까지 서비스가 준비된 것은 아닌 것으로 보이구요. GPT-4o 처럼 음성 생성 자체가 모델과 완전 통합형이 아닌 별도 음성 모델을 사용하고 있고 그러다보니 목소리에서 느껴지는 맥락과 감정까지 이해하는 형태의 모델은 아닌 것으로 보입니다. 구글 측에서도 여러 모델과 기능의 통합을 진행하는 프로젝트라고 발표했구요.
이 데모.. 어제 OpenAI GPT-4o 를 보고 나서 보게 되니 구글 이 확실히 뒤쳐지고 있다는 인상을 받게 되었습니다.. 🥲
구글이 이번에 정확히 OpenAI GPT-4o 모델과 비슷한 multi modal 처리를 통한 영상과 음성 명령 통합 상호작용을 하고 상당히 빠른 속도까지 갖춘 '프로젝트 아스트라' 데모를 선보였습니다. 영상을 볼 때 OpenAI 만큼 바로 런칭할 수준까지 서비스가 준비된 것은 아닌 것으로 보이구요. GPT-4o 처럼 음성 생성 자체가 모델과 완전 통합형이 아닌 별도 음성 모델을 사용하고 있고 그러다보니 목소리에서 느껴지는 맥락과 감정까지 이해하는 형태의 모델은 아닌 것으로 보입니다. 구글 측에서도 여러 모델과 기능의 통합을 진행하는 프로젝트라고 발표했구요. 이 데모.. 어제 OpenAI GPT-4o 를 보고 나서 보게 되니 구글 이 확실히 뒤쳐지고 있다는 인상을 받게 되었습니다.. 🥲
Project Astra: Our vision for the future of AI assistants
Introducing Project Astra. We created a demo in which a tester interacts with a prototype of AI agents supported by our multimodal founda…
굳이 시작할때 single take 로 찍었다고. 저번 제미나이 영상 처럼 편집된게 아닌 원테이크라고 나오는 부분을 보면서 '아니 당연한걸 이렇게 까지 설명해야 한다니.. 어쩌다 그리 신뢰를 잃었나... ' 싶기도..