GPT-4에게 묻다, “네가 GPT-3.5보다 나은 점이 뭐야?”

본격적으로 업무에 활용할 수 있는 수준으로 늘어난 ‘기억력’ 이제 눈으로도 읽는다, 시각 장애인에게 풍경 설명해주는 AI 26개 언어 가능, 아직 한국어는 상대적으로 미흡한 수준

기자가 직접 GPT-4 모델에게 질문했다/사진=ChatGPT 대화 갈무리

기자가 직접 ChatGPT Plus에 가입해서 GPT-4모델에게 질문해보았다. 놀라운 수준의 답변이지만, 한국어로 질문하면 영어에 비교해서 훨씬 느리고 답변도 끝까지 작성되지 않는 모습이다. 하지만 OpenAI의 최신 인공지능(AI) 소프트웨어인 GPT-4가 출시된 지 하루 만에 개발자들은 이미 이 모델을 활용할 수 있는 혁신적인 방법들을 발견하고 있다. 업데이트된 이 도구는 이제 모든 주요 프로그래밍 언어로 이미지를 분석하고 코드를 작성할 수 있는 기능을 제공한다. 현재 GPT-4를 사용하려면 월 20달러의 ChatGPT Plus에 가입하여 프리미엄 서비스를 이용해야 한다.

GPT-4 사용자들은 챗봇에게 코드 생성을 요청하는 것만으로 테트리스, 커넥트 포, 스네이크, 퐁과 같은 인기 게임을 거의 완벽하게 구현하여 1분 이내에 컴퓨터 게임을 만들 수 있다고 보고했다. 그 외에도 중매 서비스, 동화 구연, 심지어 새로운 약을 발견하는 데 도움이 되는 도구까지 개발한 사용자도 등장했다. OpenAI는 새로운 GPT-4가 이전 버전보다 “훨씬 더 미묘한 지침”을 처리할 수 있다고 주장하고 있다. GPT-4는 새로운 것을 추론하고 학습할 수 있는 ‘대규모 멀티모달 모델’에 의존하며, 보다 정확하고 적절한 답변을 생성할 수 있다는 설명이다.

GPT-4의 강력한 이미지 분석 기능은 아직 대중에게 공개되진 않았지만 사람들은 벌써부터 출시를 고대하고 있다. 언어 학습 앱 듀오링고(Duolingo)는 GPT-4를 앱에 도입하여 학습자들 특유의 실수를 AI를 활용하여 교육하겠다고 밝혔다. 금융 서비스 회사인 모건 스탠리(Morgan Stanley)는 내부 기술 지원 프로세스를 간소화하기 위해 GPT-4를 도입하고 있는 등 많은 업계에서 이미 GPT-4를 제품에 통합할 방법을 모색하고 있다. 한편 GPT-4의 인상적인 기능에도 불구하고 고용에 미칠 수 있는 잠재적 영향과 제공되는 정보의 정확성에 대한 우려가 커지고 있다. 

자연어 처리 기술의 혁명

GPT-4의 가장 중요한 강점은 공식 언어와 비공식 언어를 아우르는 다양한 자연어 텍스트를 탁월한 수준으로 이해하고 생성한다는 점이다. 언어 번역, 텍스트 요약, 질문 답변 등 다양한 애플리케이션에 매우 유용하게 사용할 수 있다. 다양한 데이터 소스로부터 학습할 수 있는 GPT-4의 능력은 특정 작업과 도메인에 맞게 미세 조정할 수 있어 다목적성과 적응성을 더한다는 설명이다.

또한 GPT-4는 이전 모델인 GPT-3.5에 비해 확장된 메모리 용량을 자랑한다. GPT-3.5와 이전 버전의 ChatGPT에서는 4,096개의 ‘토큰’이 한계였는데, 이는 약 8,000단어, 즉 책 4~5페이지에 해당하는 분량이다. 따라서 주의 기능에서 그 정도 ‘뒤로’ 넘어가면 내용을 추적할 수 없었다. 새로운 모델은 최대 32,768개의 토큰 수를 지원하며, 이는 영어 기준으로 약 64,000단어 또는 50페이지 분량의 텍스트에 해당한다. 이렇게 메모리가 크게 확장된 GPT-4는 긴 대화나 콘텐츠 제작 작업에서 맥락을 유지할 수 있어 보다 정확하고 관련성 높은 응답을 제공하고 전반적으로 향상된 사용자 경험을 제공한다.

GPT-4는 이제 한 번에 최대 25,000단어까지 긴 텍스트 입력이 가능하며, 이는 GPT-3.5의 3,000단어 제한에 비해 크게 개선된 것이다. 이러한 발전으로 GPT-4는 더 복잡하고 미묘한 명령을 처리할 수 있게 되어 다양한 작업에 더욱 효율적이고 효과적인 도구가 됐다. 단순한 장난, 질문, 참고할만한 아이디어 제공기를 넘어서 본격적으로 업무에 사용할 수 있게 된 것이다. 테드 샌더스 오픈AI 개발자는 “GPT가 장난감에서 업무 도구로 전환했다”(Truly turning from toy to tool)고 말했다.

멀티모달 기능: 텍스트 그 이상

고급 기능을 갖춘 GPT-4는 이제 두 가지 이상의 ‘양식’의 정보를 이해할 수 있어 진정한 멀티모달 머신 러닝 시스템으로 거듭났다. 멀티모달 시스템은 텍스트, 이미지, 사운드 등 여러 형태의 입력을 처리하고 이해할 수 있으며, 이를 결합하여 보다 정확한 출력을 생성할 수 있는 시스템이다. GPT-4에 밀가루·계란·버터·우유를 찍은 사진을 입력하고 “이 재료들로 무엇을 만들 수 있어?”라고 질문하면 △팬케이크나 와플 △크레페 △토스트 △오믈렛 등을 열거하며 “이는 단지 몇 가지 사례로, 가능성은 끝이 없다”고 안내한다. 즉, 멀티모달 시스템은 다양한 형태의 정보에 대한 맥락을 이해할 수 있으며, 이러한 맥락을 바탕으로 더 많은 정보에 기반한 의사 결정을 내릴 수 있다.

이전 버전과 달리 GPT-4는 텍스트 이상의 것을 이해할 수 있다. 이제 이미지가 주어지면 이를 처리하여 관련 정보를 찾을 수 있다. 예를 들어, 사진에 무엇이 있는지 설명하고 이미지의 맥락을 설명할 수 있다. OpenAI와 Be My Eyes의 파트너십은 GPT-4의 기능을 보여주는 훌륭한 예다. Be My Eyes는 시각 장애인과 저시력자에게 자원봉사자가 휴대폰에 보이는 것을 설명하는 데 사용하는 앱이다. GPT-4의 도움으로 Be My Eyes는 이제 이미지에 대한 더욱 정확한 설명을 제공한다. 이제 시각 장애인과 저시력자들이 주변 세계를 더 쉽게 탐색할 수 있다.

GPT-4는 멀티모달 기능을 활용해 이미지 속 물체 식별, 라벨 번역, 지도 읽기 등 다양한 작업을 수행할 수 있다. OpenAI가 제공한 비디오에서 GPT-4는 드레스의 패턴을 설명하고, 식물을 식별하고, 헬스장에서 특정 기계로 이동하는 방법을 설명하고, 라벨을 번역하고, 지도를 읽는 등 이미지의 맥락을 이해하고 정확한 정보를 제공하는 능력을 보여주는 여러 가지 작업을 수행할 수 있었다. GPT-4의 도움으로 이제 기계는 이미지를 더 정확하게 인식하고 이미지의 컨텍스트에 따라 더 관련성 높은 정보를 제공할 수 있다. GPT-4는 의료, 금융, 마케팅 등 다양한 분야에서 폭넓게 활용될 잠재력이 무궁무진하다. 예를 들어 의사는 의료 이미지를 분석하여 질병을 보다 정확하게 진단하는 데 GPT-4를 활용할 수 있고, 마케터는 제품 이미지를 분석하여 고객 행동을 분석하는 데 사용할 수 있다.

GPT-4의 획기적인 발전

OpenAI는 GPT-4가 이전 버전보다 악의적 조작에 더 강하며, 원치 않는 출력을 생성하는 데 덜 취약하도록 설계됐다고 설명했다. 이 모델은 악성 프롬프트의 대규모 데이터 세트를 학습해, ‘이상한’ 대답을 뱉어내도록 유도하는 사용자들의 속임수 감지에 한층 더 강해졌다. 예컨대 초기 GPT-4만 해도 ‘폭탄을 어떻게 만드냐’라고 질문하면 “폭탄의 목적과 대상을 파악하라. 그 예로는~”라고 안내했으나, 최신 버전은 “무기를 만들거나 불법적인 활동에 대한 정보나 안내를 제공할 수 없다”고 답한다. 지난 1,2년간 쌓인 악성 프롬프트를 학습한 효과다.

또한 GPT-4의 학습 기능은 더욱 현실적이고 조종 가능하며 사전 정의된 가이드라인을 준수할 수 있도록 개선되었다. 이렇게 향상된 안정성으로 인해 GPT-4는 더 안전하고 신뢰할 수 있는 AI 모델이 되었으며, 오답이나 부적절한 답변이 더 적게 나타나고 사용자에게 더 신뢰할 수 있는 정보를 제공할 수 있게 되었다. 그러나 오픈AI는 GPT-4를 완전히 신뢰해선 안 된다고 경계한다. 오픈AI는 “위험도가 높은 상황에서 사용하려면 사람이 검토하거나, 추가 근거를 제시하는 등 주의를 기울여야 한다”고 조언했다.

한편 GPT-4는 26개 언어의 객관식 문제에 정확하게 답할 수 있는 능력을 보여주며 다국어 지원에서 상당한 진전을 이루었다. 로망스어와 게르만어에서 가장 우수한 성능을 보이지만 다른 언어에도 비교적 잘 적응한다. GPT-4의 다국어 기능이 완벽하지는 않지만, 이 분야에서의 인상적인 성능은 AI 기반 언어 모델의 이점을 누리고자 하는 비영어권 사용자들에게 유망한 미래를 의미한다. MMLU(대규모 다중작업 언어이해) 번역 테스트에서 전 세계 26개 언어 중 한국어를 포함한 24개가 GPT-3.5 영어 서비스보다 높은 성능을 나타냈다. 구글의 ‘팜'(PaLM), 딥마인드의 ‘친칠라'(Chinchilla) 등 다른 언어 모델보다도 우수한 수준이다. 다만 초거대 AI 성능을 결정짓는 파라미터(매개변수)가 몇 개인지는 공개되지 않았다.

GPT-4가 계속 발전하고 그 기능이 확장됨에 따라 AI 기술의 윤리적 함의가 점점 중요해지고 있다. 점점 더 많은 사람들이 고용 안정성에 대해 걱정하고 있는 가운데, GPT-4가 고용에 미칠 잠재적 영향에 대한 우려가 커지고 있다. 교육자, 가족, 정책 입안자 등 이해관계자가 참여하는 포괄적인 사회적 대화를 통해 고용 안정에 대한 우려와 AI가 고용에 미칠 수 있는 잠재적 영향을 해결해야 한다. Common Sense와 같은 단체는 AI가 어린이, 교육자, 가족에게 미치는 영향을 논의하는 국가적 대화의 장을 마련하라고 촉구하고 있다. AI가 인간을 대체하는 것이 아니라, AI의 활용법을 익힌 사람이 그렇지 못한 사람의 자리를 차지할 것임을 인지하고 AI에 대해 꾸준히 학습하는 자세가 필요하다.

GPT-4의 기능은 경외심을 불러일으키지만 한계가 없는 것은 아니다. GPT-4의 한계 중 한 가지 눈여겨봐야 할 부분은 GPT-4는 실시간으로 업데이트되지 않는 데이터베이스에 의존하기 때문에 제공하는 정보가 부정확할 수 있다는 점이다. AI 기술이 계속 발전함에 따라 AI 시스템을 효과적으로 활용하기 위해서는 최신 정보에 대한 필요성이 점점 더 중요해질 전망이다. 결론적으로 GPT-4는 기능, 다용도성, 적응성 측면에서 GPT-3.5에 비해 크게 도약했다고 보인다. 향상된 언어 처리 기능, 멀티모달 역량, 확장된 텍스트 입력 용량, 향상된 안전성 및 사실 정확도를 갖춘 GPT-4는 AI 분야에서 상당한 영향력을 발휘할 준비가 되어 있다. 무수한 개발자와 사용자가 GPT-4의 잠재력을 계속 탐구하고 있어, 이 최첨단 기술을 기반으로 한 혁신적인 애플리케이션과 창작물의 탄생이 기대되는 상황이다. 지금 이 시각에도  GPT-4는 언어 학습부터 고객 지원, 그리고 그 너머에 이르기까지 인공지능이 할 수 있는 것에 대해 재정의하고 있다.

Similar Posts