GPT-4, Claude 3, Llama 3… AI는 더 똑똑해졌고, 더 싸졌고, 더 가까워졌다
『2025 AI 지수 보고서』는 인간과 인공지능 사이의 경계가 기술적 차원이 아니라 본질적 차원에서 다시 그어지고 있음을 선명하게 드러낸다. 기술적 진보의 속도는 이제 예측의 범위를 벗어났고, 특정 AI 모델은 이미 인간의 능력을 넘어서는 수준의 문제 해결 능력을 보여주고 있다. 이 회차에서는 AI 기술의 핵심인 모델 성능의 진화, 오픈 모델과 폐쇄형 모델의 경쟁 구도, 비용 접근성과 성능 격차의 변화, 그리고 성능지표가 의미하는 사회적 함의를 중심으로 집중 분석한다.
생성형 AI 모델의 진격
보고서에 따르면, 가장 대표적인 생성형 AI인 OpenAI의 GPT-4는 SWE-bench(소프트웨어 공학 분야 문제 해결 벤치마크)에서 81.1%의 정답률을 기록하며 인간 전문가 수준을 초과했다. Anthropic의 Claude 3 Opus, Meta의 Llama 3, Google DeepMind의 Gemini 1.5도 각각 여러 분야에서 탁월한 성능을 보이며 경쟁에 뛰어들었다. 특히 Claude 3 Opus는 GPQA(Graduate-level Physics Questions and Answers)에서 가장 높은 정확도를 기록했고, Llama 3는 오픈소스 모델 중 가장 높은 MMLU 점수를 획득했다. GPT-4, Claude 3, Gemini 1.5, Llama 3 등은 이제 단순한 응답 생성이 아닌 복합적 연산, 과학적 추론, 다중언어 이해 등의 영역으로까지 진입한 상태다.

성능 격차는 좁아지고, Top1과 Top10의 엘로 차이는 사라진다
모델 성능 간의 격차는 빠르게 줄어들고 있다. 보고서에 따르면, 상위 모델 간 Elo 점수 차이는 2023년 11.9%였지만 2024년에는 5.4%까지 감소했다. 이 수치는 AI 모델 성능이 수렴 곡선을 따라가고 있으며, 더 많은 모델들이 ‘최고 수준’에 근접하고 있음을 보여준다. 이는 AI 생태계의 독점적 구조를 완화할 가능성을 열어주면서도, 동시에 경쟁을 더욱 치열하게 만들고 있다.
오픈모델의 반격 – Llama 3와 DeepSeek의 부상
2024년은 오픈웨이트(Open-weight) 모델의 부상이 두드러졌던 해였다. Meta의 Llama 3는 8B 및 70B 모델을 통해 GPT-3.5급 성능에 도달했으며, 중국의 DeepSeek Coder는 코드 생성 영역에서 GPT-4 Turbo에 근접하는 성능을 기록했다. 보고서에서는 폐쇄형 모델(Closed-weight)과 오픈형 모델 간의 성능 격차가 1.7%p까지 좁혀졌다고 분석한다. 이는 AI 기술의 민주화 가능성과 동시에, 모델 신뢰성과 책임성의 관리 측면에서 새로운 도전을 뜻한다.

AI 성능의 기준은 어디까지 진화하는가
보고서는 기존의 단순 질의응답 수준을 넘어서, AI가 복합적 추론, 창의적 사고, 철학적 개념의 이해까지 진입하고자 하는 지점에 도달했음을 시사한다. 예를 들어, OpenAI의 GPT-4는 GPT-finetuned-by-feedback 형태로 지속적인 사용자 피드백을 반영해 성능을 향상시키고 있으며, Claude 3는 멀티모달 입력을 처리하면서 이미지 이해와 텍스트 생성의 결합을 시도하고 있다. AI는 단순한 계산기가 아니라 점차 ‘설득 가능한 파트너’, ‘의사결정 조력자’의 형태로 진화하고 있다.
비용의 혁명 – GPT-3.5급 모델 추론 비용, 280배 인하
성능과 함께 중요한 변화는 ‘접근 비용’의 급격한 감소다. 보고서는 GPT-3.5 수준의 모델을 기준으로 2022년 추론 비용이 약 20달러에 달했지만, 2024년에는 단 0.07달러로 낮아졌다고 분석한다. 이는 280배 가까운 가격 인하로, AI 기술이 더 이상 대기업 전유물이 아니라 스타트업, 연구소, 교육 현장 등 다양한 곳에서 활용될 수 있는 여건이 마련됐음을 의미한다. 이와 함께 API 호출 속도 향상, GPU 자원의 확대, 클라우드 연산 비용 절감 등도 병행되어 AI 생태계의 접근성이 크게 확대되었다.
하드웨어 혁신 – 매년 43% 성능 향상, 40% 에너지 효율 개선
모델 성능 향상은 소프트웨어만의 결과가 아니다. 보고서에 따르면, 2024년 현재 AI 가속기 하드웨어의 성능은 매년 평균 43% 향상되고 있으며, 전력 대비 성능 효율은 40% 이상 개선되고 있다. 이는 모델을 훈련시키는 비용과 시간, 그리고 운영 비용을 전방위적으로 절감하게 만드는 핵심 요인이다. 특히 NVIDIA의 최신 GPU, 구글 TPU v5, AWS의 Trainium 등은 기업뿐 아니라 연구소에서도 활용 가능한 수준으로 접근성을 높였다.
AI는 어디까지 인간을 대체할 수 있을까
생성형 AI가 보여주는 압도적인 성능 향상은 인간 노동과 창의성의 정의를 다시 묻게 한다. SWE-bench에서의 정답률, GPQA에서의 물리문제 해결능력, HumanEval에서의 코드 정합성 등은 AI가 점점 더 ‘전문가’의 영역을 잠식하고 있다는 사실을 보여준다. 하지만 보고서는 동시에 AI가 여전히 윤리적 판단, 맥락 이해, 사회적 감수성 등의 측면에서는 분명한 한계를 가지고 있다고 지적한다. 특히 편향된 데이터 학습, 설명 가능성 부족, 안전성 결여 등은 AI가 인간과 협업하기 위해 반드시 극복해야 할 과제들이다.
『2025 AI 지수 보고서』는 기술적 낙관론을 넘어, 인간 중심의 AI 설계 필요성을 강조한다. 기술은 진보했지만, 그것이 누구에게 어떤 영향을 미치는지는 사회적 합의와 정책적 대응의 몫이다. AI 모델 성능의 급진적 향상은 교육, 노동, 정책, 규범 등 전방위적 변화를 요구하고 있으며, 이 연재의 다음 회차에서는 AI가 경제와 산업에 미치는 실질적 영향을 집중적으로 살펴볼 예정이다.
#AI성능 #생성형AI #GPT4 #Claude3 #Llama3 #AI비용혁명 #AI하드웨어 #오픈AI모델 #AI기술진화 #AI벤치마크