AI와 챗GPT를 정말 쉽게 알려드립니다

30년 동안 기계에게 세상을 설명해 줬는데 다 실패해버립니다.
6/20일 화요일 로지브리지 뉴스레터입니다
2023/06/20 화요일
 
 
 
우리가 만든 세상은
우리 생각의 과정이다.
우리의 생각을 바꾸지 않고는
세상은 바뀌지 않는다.
 
- 알버트 아인슈타인 -
 
 
강의 : KAIST 김대식 교수
 

✔ 인공지능이란?

 

인공지능이(AI)라는 개념은 1950년대부터 시작됐는데, 지금은 당시 개념을 기호 기반 인공지능 또는 규칙 기반 인공지능이라고 부릅니다. 쉽게 말해 연구하는 사람들이 기계에게 세상을 설명해 준 건데요. '고양이란 이런 것이다', '강아지란 이런 것이다' 규칙을 설명해 준 거죠. 그렇게 30년 동안 기계에게 세상을 설명해 줬는데 다 실패해버립니다.

 

1980년대, 학습 기반 인공지능이라는 개념이 도입됩니다. 머신러닝이라고도 부르죠. 70~80년대의 발달 심리학. 피아제 또는 비고츠키 같은 분의 연구 결과를 확인해 본 결과, 인간을 예로 들었을 때 어느 부모도 현실을 하나하나 규칙으로 설명해 주는 경우는 없다는 거죠. 인간은 스스로 학습을 하면서 데이터를 경험하고 세상을 알아본다는 겁니다. 그래서 기계에게 세상, 언어도 설명해 주지 않고 스스로 학습하도록 유도합니다. 그러나 이 방법 역시 30년 정도 시도되다가 2000년대 초에 실패합니다. 사실 총 60년 동안 실패한 분야인 거죠.

 

그리고 2010년대에 기계학습이 새로운 이름으로 다시 등장합니다. 심층학습 또는 딥러닝이라는 이름으로 등장하죠. 알고리즘 자체에는 큰 차이가 없지만, 학습에 사용할 수 있는 데이터가 상상을 초월할 정도로 늘어났습니다. 1990년대에 인터넷이 도입되고 데이터가 폭증하니까 2010년대 심층학습에서 데이터 사이즈를 훨씬 늘릴 수 있게 된 겁니다. 기계가 세상을 알아보기 시작하게 됐죠. 때문에 지난 10년을 '기계가 세상을 알아보기 시작한 시대'라고 얘기합니다.

 

이 방법은 뇌를 모방한 인공 신경세포를 사용했다고 얘기를 하는데요. 2010년대부터 지금까지 사용했었던 기계학습의 특징은 세상을 식별하고 알아보는 방법입니다. 새로운 것을 만들어내는 것이 아니고 있는 것을 알아보는 방법이라는 거죠. 그리고 컨볼루션(convolution)이라고 부르는 알고리즘을 사용하기 때문에 병렬처리가 가능합니다. 수십, 수백만장의 데이터를 학습하기 위해서는 어마어마한 계산량이 필요하고 병렬처리하지 않고는 계산이 불가능하거든요.

 

 

✔ ChatGPT의 등장

 

그런데 세상을 알아보고 식별하는 기능은 이제 사용 가능한 영역에 다 사용이 됐습니다. 그런데 구글 브레인의 바스 바니라는 인도 출신 과학자가 트랜스포머(transformer)라는 알고리즘을 제안합니다. 핵심은 수십만, 수백만 단위의 데이터가 아니고 수천억 또는 조 단위의 데이터를 학습할 수 있는 능력입니다. 그리고 이 기술을 사용한 영역이 자연어 처리에요. 근데 과거에 인공지능을 개발할 때 언어 처리가 어려웠던 이유는 문법과 순서가 존재하기 때문입니다. 말을 할 때 첫 단어, 두 번째, 세 번째 문장을 끝까지 들어야 맥락이 이해가 되잖아요. 문장이 길어질수록 첫 단어를 들은 기계가 기억해야 할 게 점점 늘어나면서 잊게 된 거죠. 때문에 기계가 문장을 이해하는 것이 그동안에는 불가능했습니다.

 

근데 트랜스포머 알고리즘에서는 문장의 순서를 배제시킵니다. 집중 알고리즘이라는 것을 사용해서 수천억 단위의 학습 데이터를, 인터넷에 있는 모든 문장을 학습합니다. 인터넷에 있는 모든 글에서 단어와 단어, 문장과 문장의 확률 관계를 미리 학습하는 겁니다. 예를 들어 ‘조금 뒤에 우리는 00을 먹을 거다’라고 하면 00은 점심이라는 것을 예측할 수 있잖아요. 이런 식으로 단어들 간에는 확률적인 관계가 있고, 트랜스포머 알고리즘은 수천억개의 단어, 문장 사이의 확률적인 관계를 동시에 학습할 수 있는, 병렬 프로세스가 가능한 알고리즘을 제안한 겁니다. 사실상 구글에서 개발한 거예요.

 

그리고 2018년 OpenAI에서 구글이 개발한 트랜스포머 알고리즘을 사용해서 GPT라는 방법을 제안합니다. 이름을 보면 어떤 것을 하는 인공지능인지 알 수 있는데요. Generative Pretrained Transformer. 생성을 해주는, 미리 학습을 하는, 트랜스포머라는 겁니다. 디지털 세상에 있는 모든 글을 사전 학습하고 인간이 만들어낸 모든 문장의 확률적인 지도를 만들어낸 거예요. 수천억개 단위의 단어와 문장 사이의 확률적인 분포만 계산해서 그 숫자를 가지고 인류가 만들어 낸 모든 글의 지도를 그려놓은 겁니다.

 

내비게이션이 길을 찾아주듯 이건 언어의 내비게이션이라고 생각하시면 됩니다. 그것을 미리 학습시키고 내가 입력하면 생성을 해주는 겁니다. 지난 10년 동안 인공지능이 식별과 구별을 했다면, 올해부터는 생성을 할 수 있다는 거죠. 근데 그동안 GPT 1, 2, 3 다들 문제가 있었고, 문장이 완벽하지 않았습니다. 그래서 ChatGPT도 GPT3 또는 GPT3.5를 사용했으니 잘 안될 것이라고 생각했는데 대화를 나눌 때에 너무 원활했던 거죠.

 

ChatGPT는 강화 학습을 사용했기 때문입니다. GPT를 사용해서 문장을 만들면 확률 위주로만 문장을 만들어내는데 역설적으로 가장 확률적으로 가능성이 있는 단어만 나열하면 사람이 읽었을 때 자연스럽지 않다고 판단을 한다고 합니다. 그래서 강화 학습을 하게 하는데 GPT에게 수많은 문장을 만들게 하고 사람에게 판단하라고 한 겁니다. 수천명의 사람을 동원해서 문장을 읽고 좋은지 나쁜지 판단을 하게 한 거죠. 이런 식으로 ChatGPT는 확률적으로 만든 언어의 지도를 가지고, 여기에 더해 인간의 피드백 기반 강화 학습으로 만들어진 거예요.

 

그래서 인지과학과 언어학의 측면에서 ChatGPT는 충격적입니다. 문법을 입력하지 않았는데 기계가 문법적으로 맞는 문장을 만들어 낼 수 있다는 것을 알게 된 거죠. 이건 과거 촘스키 이론이 틀렸다고 ChatGPT가 검증을 하게 된 겁니다. 단순히 학습만 해서도 문법적인 문장이 만들어진다는 거니까요.

 

그리고 개인적으로 충격적이었던 경험이 있는데요. "인간은 진화적인 과정을 거쳤기 때문에 니즈와 욕망이 있지만 기계는 원하는 게 없지 않냐"라고 질문하려 하다가 "인간은 진화적인 과정을 거쳤지만" 만 입력하고 실수로 엔터키를 눌렀던 적이 있습니다. 그랬더니 기계가 제가 하고 싶었던 얘기를 100% 동일하게 끝내주더라고요. 저는 그것을 보고 '나는 자유의지가 있을까' 하는 질문이 생겼습니다. 결국 '우리 인간이 하는 언어도 대부분 내가 지금까지 읽었던 모든 글들의 확률분포를 재정립해서 그 순서대로 말이 나오는 게 아닐까' 왜냐면 내가 하고 싶었던 얘기를 ChatGPT가 예측을 했기 때문입니다.

 
(본 콘텐츠는 유튜브 채널 '동아시아유니버스'의 영상을 사용 허가받아 요약정리한 내용입니다. 내일부터 코엑스에서 진행되는 '2023 유통물류 AI리더 컨퍼런스'를 보시기 전에 인공지능과 ChatGPT에 대해 쉽게 이해하실 수 있도록 정리해 봤습니다)
 

✔ 지적인 행위도 자동화

 

현재 ChatGPT는 한국어로도 대화가 가능하지만 데이터가 많을수록 퀄리티가 좋아집니다. ChatGPT가 학습한 데이터에서 가장 많은 부분을 차지하는 것은 당연히 영어 문서고요. 그다음으로 가장 많은 문서는 파이썬입니다. 덕분에 ChatGPT가 파이썬을 굉장히 잘합니다. 한국어는 데이터가 쌓이기 시작한 게 10년 정도이기 때문에 데이터가 그렇게 많지 않아요. 영어로는 지난 30~40년 자료가 있고요. 때문에 저는 영어로 주로 질문을 하는데, ChatGPT가 창작을 잘 한다고 알려져 있어서 몇 가지 조건만 주고 한국의 막장 드라마 이야기를 써보라는 내용이었습니다.

 

첫 번째, 주인공에게 출생의 비밀을 주고, 두 번째, 주인공은 암이 생기고, 세 번째, 삼각관계가 필요하다고 했습니다. 그런데 갑자기 모든 이름을 한국 이름으로 바꾸더니 주인공은 강남에 사는 지선이고, 미국에 사는 아버지가 돌아가시기 전 편지를 남겼고, 거기에 이런 충격적인 얘기가 있다는 거예요. “이 얘기는 평생 안 하려고 했었는데 사실 너는 입양된 애다” 출생의 비밀이 충족됐죠.

 

이 주인공이 충격을 먹어서 쓰러지고 병원에 입원했는데 암이 발견된 거예요. 두 번째 조건도 충족됐습니다. 그리고 병원에서 퇴원하고 나서 이제 뭐 인생이 다 무너졌으니까 가장 친한 친구의 남자친구를 뺏기 시작하더라고요. 다시 말해서 제가 말했던 조건을 어떻게 해서라도 다 충족했어요. 재밌는 건 똑같은 값을 입력하면 완전히 다른 이야기가 나옵니다.

 

흥미로운 건 이런 스토리를 만드는 시간이 1분이 안 걸린다는 겁니다. 결국 우리는 '지적인 행위 역시 자동화되고 대량생산이 가능하지 않을까'라는 이슈에 대해서 논의를 해야겠죠. 지금까지의 기계는 물질적인 것을 대량생산할 수 있었습니다. 그런데 이제 지적인 행위, 코딩, 글을 쓰는 것, 연구를 하는 것, 회계, 비즈니스 전략을 세우는 것 등 많은 부분에서 자동화, 그리고 대량생산이 가능하다는 것이 가장 큰 이슈일 것입니다.

 

 

✔ 검색의 시대가 끝날까

 

이런 일들이 사회에 엄청난 파장이 있을 것으로 생각합니다. 첫 번째는 '검색의 시대가 끝나는 것이 아닐까'라는 부분이겠죠. 덕분에 구글 CEO가 회사 내부에서 코드 레드(cord red)를 발동하기도 했어요. 긴급한 사태라는 거죠. '98년 창업 이후에 처음으로 회사가 망할 수 있는 위기에 처했다’는 얘기를 합니다. 구글 관점에서는 사실 짜증 날 거예요. OpenAI가 사용한 핵심기술(트랜스포머)은 97년에 이미 본인들이 개발한 거니까요.

 

그런데 사실 2021년에 구글은 이미 트랜스포머 알고리즘을 사용해서 '람다(LaMDA)'라고 부르는 대화하는 AI를 개발했었어요. 그런데 끝까지 공개하지 않았습니다. 여러 가지 이유가 있을 텐데요. 첫 번째는 람다 역시 이상한 스토리텔링을 하기 시작했고, 두 번째로는 제가 듣기로는 내부적으로 어마어마한 토론이 있었다는 거예요. 구글의 주요 비즈니스는 광고입니다. 매출의 90% 이상이 광고인데요. 구글이 잘하는 건 사람들이 질문을 했을 때 비슷한 질문을 한 사람들은 어떤 홈페이지에 방문했는지 그 확률분포를 가지고 있는 거죠. 페이지 랭크(page rank)라는 알고리즘으로.

 

그래서 우리가 구글에 질문하면 링크를 찾아줍니다. 수백개의 링크를 보여주고 우리가 링크에 들어가서 내용을 확인해야 합니다. 덕분에 검색은 클릭을 많이 해야 합니다. 그리고 기업들이 스폰서링을 한 광고들이 검색에서 상위에 올라오기 시작하고, 또 내가 클릭하는 것을 기반으로 나의 성향, 선호도를 분석해서 추천 알고리즘을 돌리고 광고를 띄울 수 있는 거죠. 그런데 소비자가 정말 원하는 건 링크가 아니에요. 질문에 대한 답을 원하는데 그 답을 줄 수 없으니까 그런 답을 찾았던 사람들이 방문했던 링크를 자꾸 보여주는 겁니다.

 

그런데 ChatGPT가 질문에 대한 대답을 해준다면 클릭할 필요가 없으니까 클릭 숫자가 10분의 1로 줄어들고 광고주는 떨어지고 매출이 추락할 것이라는 예측. 덕분에 람다를 공개하지 않았습니다. OpenAI는 광고 비즈니스를 하고 있지 않으니 공개가 가능했던 거고요. 결국 구글도 혁신가의 딜레마에 빠진 거예요. 본인들의 기술로 어마어마한 조 단위 비즈니스를 하고 있는데 본인들이 개발한 기술로 그 비즈니스가 사라질 수 있게 된 거죠. 그런데 OpenAI가 2022년 11월 30일 ChatGPT를 공개해버렸으니 어쩔 수 없이 구글도 바드를 공개하게 된 겁니다.

 

그리고 마이크로소프트는 OpenAI에 1조원을 투자했었어요. 계약 조건 중 하나가 OpenAI가 만들어 낸 기술의 첫 번째 사용권, 활용권은 마이크로소프트에게 있다는 겁니다. 그렇게 New Bing을 소개하죠. 아무도 쓰지 않는 검색엔진입니다. 전 세계적으로 약 93%가 구글을 사용하고, 약 3%만 Bing을 사용하는 것으로 알고 있거든요.

 

마이크로소프트는 사실 이 기회에 구글을 무너뜨릴 수 있다고 생각하는 것 같습니다. 먼저 검색이 필요 없게 만들어서 광고시장에서 구글을 무너지게 할 수 있고요. 또 이 생성형 AI의 계산량은 어마어마하기 때문에 데스크톱으로 할 수 없고 클라우드를 써야만 하거든요. 그리고 마이크로소프트 ChatGPT를 기업적으로, 비즈니스적으로 활용하려면 절대적으로 마이크로소프트 클라우드 애저(azure)를 사용해야 합니다. 다른 서비스에는 못 싣게 했어요. 그 얘기는 본인들이 가진 클라우드가 이제 새로운 플랫폼이 될 수 있다는 거예요. 그래서 아마존이 클라우드 비즈니스가 위험해지니까 놀란 거죠.

 

 

✔ 애플이 조용한 이유

 

올해 들어와서 이 IT업계에 어마어마한, 세상을 바꾸는 변화가 일어나고 있죠. 30년 동안 주도권을 가졌던 검색이 무너지기 시작하고, '클라우드에 대한 주도권이 마이크로소프트 쪽으로 넘어가지 않을까' 하는 흥미로운 일이 벌어지고 있고요. 이 모든 일들이 벌어질 때 신기할 정도로 애플은 아무 이야기가 없습니다.

 

사실 여러 이유가 있는데요. 저희 눈에는 애플이 어마어마한 기술을 가진 기업처럼 보이지만 애플은 디자인이 뛰어난 것이고 AI 기술은 없습니다. 기계학습 또는 심층학습 분야는 처음에 만들어졌을 때부터 이것을 선도하신 과학자들은 카피라이트(보호)보단 카피레프트(허용)를 지원하셨던 분들입니다. 그래서 지난 10년 동안 기계학습 분야에서 새로운 방법을 제안하면 코드를 다 깃허브(GitHub)라는 곳에 공개했어야 해요. 

 

덕분에 오늘날 누군가가 새로운 방법을 개발하면 3일 후면 전 세계 사람들이 그냥 쓸 수가 있었어요. 그래서 혁신이 빨리 된 거죠. 그런데 기업은 본인들이 개발한 코드를 공개해야 하는 문제가 생긴 겁니다. 구글, 페이스북, 아마존은 다 허락했는데 애플만 금지시켰습니다. 그렇다 보니까 실리콘밸리 최고 수준의 인공지능 전문가들은 애플에 입사를 안 하죠. 가는 순간 본인 연구를 공개 못하니까요. 그리고 공개 못한다는 것은 우리 분야에서 '같이 안 놀겠다'라는 거예요. 아웃사이더가 되어버려서 인정받지 못합니다. 그래서 애플은 리딩하는 전문가들이 부족하게 된 거죠.

 

현재 AI 기술력을 가진 곳은 당연히 구글, OpenAI, 딥마인드(Deepmind) 그리고 영국 스타트업 StabilityAI 이 정도이지 않을까 싶고요. 소문으로는 중국 베이징에 있는 Academy for scienceAI가 상당한 기술력을 가지고 있다고 얘기하는데 중국에선 ChatGPT가 금지됐습니다. 왜냐면 ChatGPT로 시진핑 얘기를 만들어낼 수 있거든요. 정부에서 통제할 수 없는 생성형 서비스이기 때문에 금지시켰습니다. 그런 리딩 서비스를 접속하지 못하는 상황에서 어느 정도 혁신이 있을지는 모르겠습니다.

 
 
 
(광고) ※ 로지브리지 멤버십 회원사 '트위니' 소개 : 트위니는 설비나 설치 없이 도입할 수 있는 물류 자동화 솔루션을 개발합니다. 인건비 1/5 가격으로 도입하는 첨단 물류를 직접 경험해보세요. (더 자세히 보기)
 
 
(광고) ※ 로지브리지 멤버십 회원사 'JLL코리아' 소개 : JLL(NYSE: JLL)은 글로벌 종합 부동산 서비스 회사로 230년 이상의 경험, 전세계 80개국 300개의 지사 103,000명의 전문인력을 토대로 고객 중심의 서비스를 제공하는 글로벌 기업입니다. (더 자세히 보기)
 
 
 
※ 클릭하시면 기사 & 보고서 원문을 보실 수 있습니다.  
 
 
 
🍋 로지브리지 뉴스레터에 담겼으면 하는 참신한 아이디어, 또 개선했으면 하는 내용이나 아쉬운 점 등을 익명으로 자유롭게 보내주세요. 매주 좋은 의견을 보내주시는 두 분을 선정하여, 영화 예매권(2매)를 선물로 보내드립니다. (제안하기)
 
 
👬 다양한 협업, 콘텐츠와 영상 제작을 함께 하고 싶은 분들, 언제나 환영입니다!
 
 
 
 
글쓴이
비밀번호
비밀번호 확인
평점 주기
작성된 후기가 없습니다.
후기 수정
글쓴이
평점 주기
목록으로 가기
재입고 알림 신청
휴대폰 번호
-
-
재입고 시 알림
페이스북
카카오톡
네이버 블로그
밴드
floating-button-img