AI, 이것만 알면 됩니다 ③ - 오픈소스 AI

2023. 4. 8. 20:44AI • 빅데이터 인사이트

AI, 이것만 알면 됩니다 ③ - 오픈소스 AI

무서운 속도로 발전해가는 AI를 이해하기 위해 필요한 지식을 쉽게 풀어 썼습니다.

챗GPT로 인해 본격적으로 시작된 AI 시대, 이것만은 꼭 알아가세요!

 

목차

일론 머스크가 쏘아 올린 작은 공: TwitterOSS

폐쇄형 LLM이 가져 올 최악의 시나리오

폐쇄형 LLM의 대체재


일론 머스크가 쏘아 올린 작은 공: TwitterOSS

3월의 마지막 날, 트위터 공식 블로그에는 트윗 추천 알고리즘에 대한 자세한 내용과 함께 소스 코드를 깃허브(Git Hub)에 공개한다는 글이 올라왔습니다.

이는 ‘투명한 플랫폼’이라는 기업적 책임과 가치를 위한 선택이었다⁽¹⁾고 합니다.

 

같은 날 샌프란시스코에서는 오픈소스 AI를 주제로 한 커뮤니티 모임인 ‘Woodstock of AI’이 열렸습니다.

폐쇄형 LLM과 개방형 LLM에 대한 논쟁을 배경으로 한 이 모임은 프로그래머, 투자자, 기업가에 이르기까지 수천 명이 모였습니다.⁽²⁾

 

이는 빠르게 발전하는 AI의 ‘투명성’에 대한 우려와 사회적 관심의 크기를 보여줍니다.

 

빠르게 발전하는 AI의 ‘투명성’에 대한
우려와 사회적 관심의 크기를 보여줍니다.

 

폐쇄형 LLM vs. 개방형 LLM

OpenAI는 회사의 명칭에서 알 수 있듯이, 인공지능 소스 코드를 오픈소스화하여 안전하고 평등한 인공지능의 발전을 추구한다는 이념에서 시작했습니다.

이 이념에 따라 GPT-1과 GPT-2는 논문과 소스 코드까지 무료로 공개되어 있습니다.

 

그러나 GPT-3부터는 마이크로소프트를 통해 API를 독점으로 공급하며, API 호출로만 사용할 수 있을 뿐 소스 코드는 공개하지 않았습니다.⁽³⁾

따라서 OpenAI의 이념은 사라지고 GPT-3 및 이후 모델인 GPT-4 또한 폐쇄형 LLM의 대표 주자가 되었습니다.

이로써 AI 생태계는 마이크로소프트 및 대기업이 독점할 것이라는 우려가 커지고 있습니다.

 

이에 대한 반격으로써, 일론 머스크는 대규모 AI 개발을 6개월 간 중단할 것을 공개적으로 촉구하고 트위터의 소스코드를 공개했습니다.

공개된 소스코드를 통해 의도를 가지고 편향적인 피드를 사용자에게 보이게 하는 게 가능하다는 것이 확인됐습니다.⁽⁴⁾

 

AI 기술을 일부 대기업이 독점할 경우, 가능한 최악의 시나리오는 어떤 걸까요?

 

AI 기술을 일부 대기업이 독점할 경우,
가능한 최악의 시나리오는 어떤 걸까요?

폐쇄형 LLM이 가져 올 최악의 시나리오

ChatGPT의 가장 큰 취약점 중 하나로 지적되고 있는 ‘불투명성’은 사용자들에게 여러 불안감을 안겨주고 있습니다.

 

구글이 AI 기술이 있으면서도 출시하지 않았던 이유로 “구글검색을 기반으로 하는 광고 수익 모델”을 지적합니다.

마찬가지로, MS의 공격적인 OpenAI 투자와 제품 출시에는 1200억 달러의 전세계 검색엔진 시장에서 점유율이 늘어날 때마다 이득이 커질 것⁽⁵⁾이라는 기대 때문인 것으로 보입니다.

 

하지만 “빙챗이 구글과 같은 광고 수익모델을 사용할 수 있을까?”라는 의문이 듭니다.

왜냐하면 검색 결과 상위 페이지에 광고를 노출하는 기존의 구글검색과 빙챗이 보여주는 검색 환경이 다르기 때문입니다.

 

구글검색의 광고모델을 그대로 사용하는게 어렵다면, 빙은 어떻게 수익을 낼까요?

 

트위터 오픈소스를 통해 추론할 수 있는 가장 우려스러운 가정은 ‘알고리즘 내 가중치를 조정해 사용자가 눈치채지 못하게 광고를 하는 것’입니다.

 

영화 ‘터미네이터’처럼 AI가 인류를 지배하는 건 아니더라도, AI에 대한 독점 권한을 가진 일부가 대중을 입맛대로 선동하는 폐쇄형 LLM 모델이 가져 올 최악의 시나리오가 현실이 될 수도 있겠죠.

 

 

영화 ‘터미네이터’처럼 AI가 인류를 지배하는 건 아니더라도,
AI에 대한 독점 권한을 가진 일부가 대중을 입맛대로 선동하는 
폐쇄형 LLM 모델이 가져 올 최악의 시나리오가 현실이 될 수도 있겠죠.

 

 

#HustleGPT와 독점 상품화

MS가 약 12조원을 투자한 OpenAI의 주력 수익화 전략은 ‘API 구독’입니다.

현재 OpenAI를 구독 결제하면, 이전까지 무료로 사용했던 이용분에 대한 금액까지 내야 합니다.

 

하지만 트위터에선 #HustleGPT라는 해시태그와 함께 GPT-4 APT를 이용한 비즈니스는 우후죽순 생겨나고 있고 있습니다.

HustleGPT는 단돈 100달러로 시작할 수 있는 비즈니스를 GPT에게 묻고 그대로 실행하는 챌린지입니다.

출처=트위터#HustleGPT

 

어떤 이는 GPT-4가 제시한 시간 관리, 스트레스 관리, 친환경 등 10가지 문제 중 ‘건강과 식습관’에 관한 문제를 해결하기로 결정했습니다.

이후 GPT-4의 가이드에 따라 집에 있는 식재료를 입력하면 AI를 통해 건강한 레시피를 추천하는 웹 페이지 MVP(Minimum Viable Product)를 만들기도 했습니다.⁽⁶⁾

 

GPT-4 API를 이용하는 비즈니스가 많아질 수록 MS는 큰 수익을 얻을 것으로 예상됩니다.

구독 모델과 같은 OpenAI의 적극적인 수익 추구는 MS의 개입의 영향으로 밖에 해석이 어렵습니다.

 

OpenAI는 ‘비영리와 오픈소스 AI’라는 시작점과 달리 ‘MS의 AI 생태계 독점’이라는 목표를 달성하기 위한 수단으로 전락하는 걸까요?

 

 

폐쇄형 LLM의 대체재

GPT-3가 출시되고 1년 반이 지난 2022년 2월, 오픈소스 AI를 지지하는 Eleuther에서 오픈 소스 GPT-NeoX-20B⁽⁷⁾를 만들었습니다.

‘Woodstock of AI’를 주최한 Hugging Face 커뮤니티 사이트에는 GPT-NeoX-20B의 API를 사용해 챗GPT가 하듯이 소설을 쓸 수 있습니다. ⁽⁸⁾

챗GPT에 비해 속도와 성능은 떨어지지만 누구나 접근할 수 있는 오픈소스 AI 모델이기 때문에 여러 사용자들을 통해 발전할 수 있는 가능성이 있습니다.

 

 

의도치 않은(?) 오픈소스 LLaMA

페이스북으로 유명한 메타에서 만든 AI 모델 LLaMA는 오픈소스였지만, 모델을 전체 공개하려는 의도는 없었습니다.

하지만 모델의 핵심인 가중치(weight) 값이 유출되면서 여러 사용자들이 다양하게 가지고 노는 모습들이 나타났습니다.

 

스탠포드 대학교에서는 벌써 라마(LLaMA)의 친구로 알파카(Alpaca)를 만들어 줬습니다.

출처=국립낙동강생물자원관

 

Alpaca 모델은 사람이 엄선한 훈련 가이드 지침(instruction seed set)을 바탕으로 파인 튜닝(fine tuning)을 통해서 챗GPT와 일부 영역에서는 거의 비슷한 성능을 보였습니다. ⁽⁹⁾

클라우드 서버, API 등 모든 비용을 합쳐도 $600 이하라는 것이 더 놀라운 점입니다. (인건비는 포함되지 않았겠지만…)

 

챗GPT는 막대한 계산 비용으로 수익화가 불가피하지만, LLaMA는 경량화된 모델로 Alpaca의 사례처럼 적은 비용으로 특수 분야의 AI 모델로 분화시킬 수 있다는 점이 흥미롭습니다.

의료 분야로 파인 튜닝된 LLaMA 모델로 출시되었으며, 이 또한 전체 모델이 공개되었습니다.

 

폐쇄형 LLM과 개방형 LLM 중 어느 누가 생성형 AI 생태계의 주도권을 잡게 될까요?

아마도 가장 큰 장벽은 바로 ‘계산 비용의 효율성’처럼 보입니다.

 

폐쇄형 LLM과 개방형 LLM 중
어느 누가 생성형 AI 생태계의 주도권을 잡게 될까요?
아마도 가장 큰 장벽은 바로
‘계산 비용의 효율성’처럼 보입니다.

 

 

다음 편에 계속…

 

Reference

[1] Twitter 공식 블로그: https://blog.twitter.com/en_us/topics/company/2023/a-new-era-of-transparency-for-twitter

[2] Venture Beat: https://venturebeat.com/ai/hugging-face-hosts-woodstock-of-ai-emerges-as-leading-voice-for-open-source-ai-development/

[3] https://make-spend-money.tistory.com/210

[3] https://medium.com/ai-networkkr/ai-모델-탐험기-21-gpt-3의-오픈소스-버전-gpt-j-de3bdcdf65dd

[4] Youtube 다이켄의 테크인사이트: https://youtu.be/QyU1fwqi7qY

[5] https://www.hellot.net/news/article.html?no=76485

[6] Twitter: https://twitter.com/leo_rsousa_/status/1637775891370586115

[7] Eleuther: https://blog.eleuther.ai/announcing-20b/

[8] HuggingFace GPT-NeoX: https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B?text=Once+upon+a+time%2C

[9] Git Hub Standford Alpaca: https://github.com/tatsu-lab/stanford_alpaca