뉴욕타임스가 마음먹고 (아마도.. ^^;) 빅테크 전체를 대상으로 "OpenAI, 구글 및 메타가 약관을 무시하고 저작권을 회피하면서 방대한 자료를 마구잡이로 수집했다" 고 공격적인 기사를 발행했습니다.
주요 테크 담당 기자 5명이 준비한 기사로 단단히 마음먹고 준비한 듯 하네요.
OpenAI 가 유튜브 영상을 무단으로 학습에 사용하는 것은 당시 OpenAI 직원들은 이것이 위법일 수도 있지만 정당한 이용일 수도 있다고 생각하고 진행했다고 합니다. 흥미로운건 구글은 OpenAI가 유튜브 영상을 무단으로 사용하는 것을 이미 인지했지만 막지 않은 것으로 보인다는 구글 내부 측근 정보가 있었습니다.
최근 이에 대해 유튜브 CEO 가 약관을 위반한 것 같다고 언급했었는데요. 당연히도 구글 역시 학습할때 유튜브 영상을 이용했다고 합니다. 이건 당연히 자기네 서비스이니 약관 위반도 아닐테구요. (구글 내부 AI 사용을 위해 약관 수정을 한 것 같다는 언급도.)
한편 구글 측에서는 유튜버가 동의한 영상에 대해서만 학습에 사용했다고 했습니다. 동의라... 😅
아무튼 뉴욕타임스는 구글 역시 약관과 무관하게 유튜브 크리에이터들의 저작권을 무시한 것이라고 했어요. 또한 구글은 OpenAI 가 무단으로 사용하는 것을 막지 않은 이유를 구글 자신들도 사용했기 때문에 이 문제가 커지면 구글 역시 저작권 침해로 곤란한 상황에 처할 것으로 보았기 때문이라고.
물론 이에 대해 구글측 대변인 공식 의견은 'OpenAI 관련 아는바가 없고 유튜브 콘텐츠 무단 사용 및 다운로드를 금지하고 있다'는 당연한 입장을 밝혔다고 합니다.
메타 역시 과거 개발팀 회의록을 입수했는데 이에 따르면 인터넷에서 이용 가능한 거의 모든 영어로 된 책, 뉴스 까지 사용했다고 하네요. 회의록에서는 유명 저작권을 가진 출판사 인수도 논의 했고, 아프리카 한 업체를 통해 저작권 동의 받지 않은 소설, 에세이 등을 요약하는 작업도 언급됩니다.
마지막으로 앞으로는 AI에서 합성 데이터 (기존 데이터를 합성해서 새로운 데이터를 만드는 기술)로 훈련하게 될 것을 언급합니다. 샘알트먼이 이전에 언급했듯 결국 존재하는 모든 인터넷 데이터는 이미 거의 다 학습에 사용한 상황이고 ( 지금은 더 많은 데이터가 필요하기 때문에 말이죠. 물론 합성 데이터 기술만으로는 한계가 있을 것이라는 의견이 많습니다.
뉴욕타임스가 이문제로 OpenAI 와 소송까지 하고 있는 입장이니 만큼 열심히 준비했네요...
확실한 것은, 메타 회의록에서도 언급되지만, AI 모델 성능에서 결국 데이터를 많이 확보하는 것이 성능 향상에 있어 key 라는 것이 언급되고, 그렇기 때문에 저작권이나 데이터 윤리를 고민하기 보다는 무조건 경쟁사 따라 잡으려면 경쟁사가 확보한 데이터를 우리도 써야 한다. 그런데 OpenAI 가 초기부터 그냥 다 가져다 썼네? 그렇다면 우리도... 안쓸수 없지! 가 된 것 같다고. 시장의 선례에 따라야 하니까요... 그래서 뉴욕타임스가 OpenAI 가 가장 먼저 시작했으니 소송을 걸기 제일 좋은 케이스로 본 것 같네요.
뉴욕타임스가 마음먹고 (아마도.. ^^;) 빅테크 전체를 대상으로 "OpenAI, 구글 및 메타가 약관을 무시하고 저작권을 회피하면서 방대한 자료를 마구잡이로 수집했다" 고 공격적인 기사를 발행했습니다. 주요 테크 담당 기자 5명이 준비한 기사로 단단히 마음먹고 준비한 듯 하네요. OpenAI 가 유튜브 영상을 무단으로 학습에 사용하는 것은 당시 OpenAI 직원들은 이것이 위법일 수도 있지만 정당한 이용일 수도 있다고 생각하고 진행했다고 합니다. 흥미로운건 구글은 OpenAI가 유튜브 영상을 무단으로 사용하는 것을 이미 인지했지만 막지 않은 것으로 보인다는 구글 내부 측근 정보가 있었습니다. 최근 이에 대해 유튜브 CEO 가 약관을 위반한 것 같다고 언급했었는데요. 당연히도 구글 역시 학습할때 유튜브 영상을 이용했다고 합니다. 이건 당연히 자기네 서비스이니 약관 위반도 아닐테구요. (구글 내부 AI 사용을 위해 약관 수정을 한 것 같다는 언급도.) 한편 구글 측에서는 유튜버가 동의한 영상에 대해서만 학습에 사용했다고 했습니다. 동의라... 😅 아무튼 뉴욕타임스는 구글 역시 약관과 무관하게 유튜브 크리에이터들의 저작권을 무시한 것이라고 했어요. 또한 구글은 OpenAI 가 무단으로 사용하는 것을 막지 않은 이유를 구글 자신들도 사용했기 때문에 이 문제가 커지면 구글 역시 저작권 침해로 곤란한 상황에 처할 것으로 보았기 때문이라고. 물론 이에 대해 구글측 대변인 공식 의견은 'OpenAI 관련 아는바가 없고 유튜브 콘텐츠 무단 사용 및 다운로드를 금지하고 있다'는 당연한 입장을 밝혔다고 합니다. 메타 역시 과거 개발팀 회의록을 입수했는데 이에 따르면 인터넷에서 이용 가능한 거의 모든 영어로 된 책, 뉴스 까지 사용했다고 하네요. 회의록에서는 유명 저작권을 가진 출판사 인수도 논의 했고, 아프리카 한 업체를 통해 저작권 동의 받지 않은 소설, 에세이 등을 요약하는 작업도 언급됩니다. 마지막으로 앞으로는 AI에서 합성 데이터 (기존 데이터를 합성해서 새로운 데이터를 만드는 기술)로 훈련하게 될 것을 언급합니다. 샘알트먼이 이전에 언급했듯 결국 존재하는 모든 인터넷 데이터는 이미 거의 다 학습에 사용한 상황이고 ( 지금은 더 많은 데이터가 필요하기 때문에 말이죠. 물론 합성 데이터 기술만으로는 한계가 있을 것이라는 의견이 많습니다. 뉴욕타임스가 이문제로 OpenAI 와 소송까지 하고 있는 입장이니 만큼 열심히 준비했네요...
How Tech Giants Cut Corners to Harvest Data for A.I.
OpenAI, Google and Meta ignored corporate policies, altered their own rules and discussed skirting copyright law as they sought online in…
너무 뉴욕타임스 입장에서 빅테크를 부정한 집단으로 몰고가는 느낌도.. 살짝.. 느껴집니다.
확실한 것은, 메타 회의록에서도 언급되지만, AI 모델 성능에서 결국 데이터를 많이 확보하는 것이 성능 향상에 있어 key 라는 것이 언급되고, 그렇기 때문에 저작권이나 데이터 윤리를 고민하기 보다는 무조건 경쟁사 따라 잡으려면 경쟁사가 확보한 데이터를 우리도 써야 한다. 그런데 OpenAI 가 초기부터 그냥 다 가져다 썼네? 그렇다면 우리도... 안쓸수 없지! 가 된 것 같다고. 시장의 선례에 따라야 하니까요... 그래서 뉴욕타임스가 OpenAI 가 가장 먼저 시작했으니 소송을 걸기 제일 좋은 케이스로 본 것 같네요.