GPT-4부터 Claude 3까지, AI는 전문가를 능가했다는 평가를 받고 있다. 하지만 그것이 곧 인간을 대체한다는 뜻일까?
인간을 넘었다는 선언, 그 수치는 어디에서 나오는가
2025년 4월 공개된 스탠퍼드대학교의 『AI Index Report 2025』는 세계 인공지능 기술의 현재를 가장 집약적으로 보여주는 문헌 중 하나다. 이 보고서의 핵심 키워드 중 단연 눈에 띄는 것은 “AI는 인간의 성능을 능가하고 있다”는 주장이다. 특히 GPT-4와 Claude 3, Gemini 1.5 등 2023~2024년에 출시된 주요 대형언어모델(LLM)이 다양한 표준 시험에서 인간 평균을 넘어섰다는 수치는 이 주장을 뒷받침한다.
보고서에 따르면 GPT-4는 미국 변호사시험에서 상위 10%에 해당하는 점수를 기록했고, Claude 3 Opus는 MMLU(Massive Multitask Language Understanding), HellaSwag, HumanEval 등 대표적 벤치마크에서 인간 평균을 압도했다. Claude 3는 상식 추론 벤치마크인 HellaSwag에서 95.4%, GPT-4는 95.3%를 기록해 인간 평균(85%)을 훌쩍 넘어섰다. 코딩 문제 해결을 측정하는 HumanEval에서도 GPT-4는 85.8%, Claude 3는 88.0%에 도달했다.
이 수치는 단순히 시험 점수 수준을 넘어서, AI가 특정 분야의 전문가 수준에 도달했다는 해석을 낳는다. 그리고 언론은 이를 “AI가 인간을 넘었다”는 식의 headline으로 보도하며 대중의 관심을 끌고 있다.
그러나 이 같은 수치가 의미하는 것은 무엇일까? 과연 AI는 진정으로 인간을 능가했는가? 아니면, 인간이라는 존재의 ‘시험 성적’ 일부만 모사할 수 있게 되었을 뿐인가?
수치는 진실을 말하지만, 진실의 전부는 아니다
AI 모델의 벤치마크 점수는 정량적이고 비교 가능한 기준을 제공하지만, 그것이 의미하는 바를 해석할 때는 보다 세밀한 분석이 필요하다. 예컨대 MMLU는 57개 영역의 다양한 주제(수학, 생물학, 역사 등)에 걸쳐 5지선다형 문제를 해결하는 방식으로 AI의 다영역 추론 능력을 측정하는 지표다. GPT-4가 여기서 86.4%의 정확도를 기록한 것은 분명 인상적인 일이다.
하지만 이는 ‘시험 보기’의 맥락에서 매우 유리한 조건이다. AI는 기본적으로 정형화된 데이터를 기반으로 작동하며, 벤치마크는 정답이 명확한 문제들을 포함한다. 반면, 실제 사람들은 일상에서 명확한 정답이 없는 문제를 다루며, 감정과 윤리, 맥락적 판단, 사회적 관계 속에서 사고한다. 즉, AI는 시험을 잘 볼 수는 있어도, 사람처럼 ‘살기’에는 아직 멀었다. GPT-4가 고득점을 기록한 시험이 인간의 전 생애 활동 중 얼마나 큰 비중을 차지하는지를 되돌아볼 필요가 있다.
분야별 편차 – 잘하는 영역과 여전히 약한 분야
스탠퍼드 AI 인덱스 보고서는 LLM 성능의 편차를 명확히 보여준다. 수학, 과학, 프로그래밍 등 논리적 정확성이 요구되는 분야에서는 인간과 비슷하거나 뛰어넘는 수준을 보이지만, 역사, 정치, 윤리, 문학처럼 인간 사회와 문화에 깊이 뿌리박힌 분야에서는 여전히 오답률이 높다.
예를 들어, Claude 3는 다중 선택형 수학문제에서 매우 뛰어난 결과를 보이지만, 역사적 인물의 발언을 인용하거나 정치적 사건의 맥락을 묻는 질문에는 때때로 사실 오류나 시대착오적 해석을 내놓는다. 이러한 오류는 AI가 ‘지식’을 ‘암기된 데이터’로 처리하고, 그 의미나 문화적 맥락을 온전히 해석하지 못하기 때문에 발생한다.
뿐만 아니라, LLM이 인간보다 뛰어난 성능을 보인다고 해도, 그것이 ‘범용 지능’ 또는 ‘실제 세계 적응력’을 뜻하는 것은 아니다. 예컨대 고등학교 수학 시험에서 높은 점수를 받은 사람이 반드시 복잡한 경제모델을 설계하거나 사회문제를 해결하는 데 탁월한 능력을 보이는 것은 아니다. 시험 성적은 능력의 일면일 뿐이다.
벤치마크라는 잣대는 공정한가?
AI 성능을 측정하는 대부분의 기준은 벤치마크(benchmark) 테스트다. 이는 인간이 만든 일련의 과제 집합으로, 정답이 존재하고 채점이 가능한 문제들로 구성된다. 대표적인 벤치마크인 MMLU, HellaSwag, HumanEval 등은 현재 LLM 성능을 평가하는 핵심 도구로 기능한다.
하지만 이 기준 자체가 과연 AI와 인간을 동일 선상에서 비교할 수 있도록 설계된 것인지에 대한 의문은 여전하다. 벤치마크는 인간의 일상적 활동이나 창의성, 감성적 판단력, 사회적 상호작용을 반영하지 않는다. 오히려 명확한 정답이 있는 문제 해결력만을 테스트할 뿐이다.
이 때문에 AI가 특정 벤치마크에서 인간을 ‘초월’했다는 주장은, 마치 마라톤 선수가 체스 대결에서 이겼다고 말하는 것처럼 범주 오류(category mistake)를 일으킬 위험이 있다. 즉, 벤치마크에서의 우위는 AI가 인간보다 전반적으로 ‘더 나은’ 존재라는 뜻이 아니다.
또한 벤치마크는 훈련 데이터와 유사한 문제 유형을 반복적으로 포함하기 때문에, LLM이 해당 문제를 ‘암기’하거나 ‘예상’하고 있는지 구분하기 어렵다. 따라서 AI가 높은 점수를 기록했다는 것이 그 문제를 ‘이해했다’는 증거는 아니다.
인간다움은 측정될 수 있는가?
AI가 인간을 넘었는지 아닌지를 평가할 때 우리가 간과하기 쉬운 한 가지는 바로 ‘인간다움(humanness)’의 정의다. 인간은 단지 문제를 풀고, 정보를 정리하고, 정확하게 응답하는 존재가 아니다. 우리는 실수를 통해 배운다. 감정의 혼란 속에서 결정을 내리고, 윤리적 딜레마 앞에서 고민한다. 누군가를 설득하고, 협상하고, 연대한다.
하지만 현재의 LLM은 이 중 무엇을 할 수 있는가? 언뜻 보기엔 감정을 담은 문장을 출력하고, 윤리적 문장을 제시할 수 있지만, 이는 훈련된 데이터의 통계적 산출물일 뿐, 그 의미나 결과를 ‘이해’하고 행동하는 것은 아니다.
예컨대, Claude 3가 HellaSwag에서 95% 이상의 정확도를 기록했다 하더라도, 이것이 그 모델이 철학적 논쟁이나 인간관계에서 발생하는 갈등을 ‘이해’하고 중재할 수 있다는 것을 의미하지는 않는다. 기계는 여전히 ‘공감할 수 없다.’
수치의 정치 – AI는 누가, 왜 평가하는가?
AI 성능을 수치화하는 이유는 단지 기술적 비교를 위한 것이 아니다. 그것은 시장에서의 경쟁력을 확보하고, 정책결정에 영향을 주며, 사용자에게 신뢰를 구축하기 위한 전략적 도구다. 그리고 이 수치들은 때로는 정치적이다.
GPT-4가 HumanEval에서 몇 점을 받았는지, Claude 3가 HellaSwag에서 인간 평균을 얼마나 초과했는지에 대한 데이터는 단지 기술 기업의 업적이 아니라, 투자자 유치, 정부 규제 대응, 교육현장 도입 결정 등에 직접적인 영향을 미친다.
보고서에서도 이 점은 분명히 언급된다. “AI 성능 벤치마크는 기술적 진보를 상징하지만, 동시에 정치적 도구로 작동한다.” 성능이 높은 AI가 곧 ‘표준’이 되고, 그렇지 못한 모델은 소외된다. 이는 곧 자본과 연산 자원을 독점한 기업이 기술 표준을 정하는 방식으로 연결된다.
이처럼 성능 수치는 기술이 아닌 ‘기준’으로 작동하고 있으며, 우리는 이 기준이 형성되고 작동하는 방식에 대해 충분히 비판적일 필요가 있다.
“AI 초월”이라는 서사의 오용 – 기술 낙관론과 그 반동
“AI가 인간을 초월했다”는 표현은 언론에서 자주 등장하며, 실제 기술 발전 속도를 감안할 때 그리 터무니없는 주장처럼 보이지 않을 수도 있다. 그러나 이 표현은 과학적 분석보다는 서사적 효과를 노리는 경우가 많다. 특히 “AI가 인간을 대체한다”는 담론은 대중의 불안감을 자극하거나 투자자들의 관심을 끌기 위해 반복적으로 소비된다.
그 결과, 일부 기업은 제품의 기능을 과장하며 ‘AGI(Artificial General Intelligence)’ 또는 ‘자율적 판단력’을 암시하는 마케팅을 펼치기도 한다. 그러나 이는 기술 현실을 왜곡하고, AI에 대한 과도한 기대나 두려움을 낳는다.
이러한 담론은 특히 교육, 의료, 법률 등 인간 중심성이 중요한 분야에서 심각한 오용으로 이어질 수 있다. 예컨대 학생을 평가하는 도구로 AI를 사용할 때, 그 AI가 ‘인간을 뛰어넘었다’는 믿음이 판단 오류를 정당화하게 되는 것이다.
Stanford HAI의 메시지 – 인간 중심 AI의 윤리
스탠퍼드 HAI(Human-Centered Artificial Intelligence) 연구소는 AI Index Report의 발간 기관이자, 인공지능 개발의 철학적 원칙을 강조하는 선도 기관이다. 이들이 지속적으로 강조하는 개념은 ‘Human-Centered AI’, 즉 인간 중심의 AI다. 보고서에서도 다음과 같은 문장이 인용된다.
“기술의 진보는 스스로 목적이 될 수 없다. AI는 인간의 능력을 보완하고, 사회적 약자를 배려하며, 민주적 제어가 가능한 방식으로 설계되어야 한다.”
이 철학은 단순한 수치 경쟁이나 속도 경쟁, 기술 낙관주의를 넘어서는 패러다임을 제안한다. 예를 들어, LLM이 수능시험이나 의료자격시험을 통과할 수 있더라도, 그 도구를 사용하는 방식, 누구에게 어떻게 영향을 미치는지에 대한 윤리적 고려가 함께 뒤따라야 한다는 뜻이다. 결국 AI의 초월이란 ‘무엇을 얼마나 잘하는가’가 아니라, ‘누구를 위한 것인가’라는 질문에 답하는 과정이 되어야 한다.
산업계의 반응 – 수치를 따라가는 기업들
AI 성능 수치는 단순한 연구 결과가 아니라, 산업계에서 매우 중요한 신호로 작용한다. 2025년 현재 GPT-4와 Claude 3, Gemini 1.5 등 주요 모델은 그 점수와 기능을 기반으로 각 산업군에 빠르게 도입되고 있다.
의료: 진단 지원, 영상 분석, 의료문서 작성 등에서 AI의 활용도가 급증하고 있으며, GPT 계열 모델이 의료전문 LLM(Med-PaLM 2 등)보다 더 나은 성능을 보인다는 주장도 등장하고 있다.
교육: 개인 맞춤형 튜터, 작문 피드백, 문제 풀이 등에서 AI의 도입이 빠르게 확산되고 있다. 특히 GPT-4는 SAT 문제를 풀거나 수학 문제 풀이 과정을 설명하는 데 강점을 보인다.
법률: 계약서 작성, 판례 요약, 법률 문서 분석 등에서 이미 일부 기업은 GPT 계열 모델을 실제 실무에 적용하고 있으며, 미국에서는 일부 변호사 사무소가 LLM 기반의 서포트 시스템을 구축했다.
이처럼 성능 수치는 산업 도입의 기준이 되며, 더 높은 점수를 기록한 모델이 시장 점유율을 확장하게 된다. 따라서 기술 기업들은 모델 성능을 강조하는 데 집중하고 있으며, 이를 위해 대규모 자본과 연산 자원을 동원하고 있다.
하지만 이러한 흐름은 소수 기업에 기술력이 집중되는 ‘AI 기술의 독점화’ 문제를 야기한다. 고성능 AI를 보유하지 못한 기업, 국가, 사용자 집단은 뒤처질 수밖에 없으며, 이로 인해 기술 격차와 불평등이 심화될 가능성이 높다.
성능은 기술의 끝이 아니라 시작이어야 한다
AI Index Report 2025는 AI 기술이 비약적으로 발전하고 있음을 수치로 증명하고 있다. 하지만 이 수치들이 보여주는 ‘성과’는 단지 기술의 출발점일 뿐이다. LLM이 수학 문제를 더 잘 푸는 것은 중요하지만, 그 성능을 어떻게 사회적으로 활용하고 통제하며 분배할 것인가가 훨씬 더 본질적인 질문이다.
특히 ‘성능지표 중심’의 AI 발전 서사는 기술에 대한 환상을 부추기는 동시에, 인간의 역할을 점점 더 주변화할 위험이 있다. 교육에서 AI 튜터가 인간 교사를 대체하거나, 법률 분야에서 AI 자문이 인간 변호사의 윤리적 숙고를 대체하는 경우, 성능이 아니라 책임과 신뢰가 문제의 중심이 되어야 한다. AI는 인간을 초월할 수 있지만, 인간을 대체할 수는 없다. 그 둘은 전혀 다른 차원의 문제다.

공존을 위한 전환 질문: 우리는 어떤 AI를 원하나?
보고서가 던지는 가장 중요한 질문은 단순히 “AI가 인간을 넘었는가?”가 아니다. 그것은 오히려 “우리는 어떤 AI를 원하는가?”라는 질문이다. 기술이 특정 문제를 더 잘 풀 수 있게 되었을 때, 그것을 어떻게 사용할 것인지는 기술자의 문제가 아니라 사회 전체의 문제다.
우리는 지금까지 ‘AI의 능력’을 중심으로 논의해왔다. 이제는 ‘AI의 영향력’과 ‘AI의 방향성’을 중심으로 논의의 초점을 이동해야 한다. 성능이 좋다는 이유만으로 AI를 무조건 받아들이는 것이 아니라, 그 기술이 만들어낼 사회적 결과를 예측하고 대비해야 한다. 예컨대 AI가 선거에 영향을 미치거나, 법적 판단의 기초 자료로 쓰이거나, 채용 과정에서 편향된 결과를 낳는 경우, 아무리 성능이 높더라도 그 기술은 사회에 해를 끼칠 수 있다.
GPT-4가 MMLU에서 86.4%를 기록했다는 사실은 기술 발전의 상징이다. Claude 3가 HellaSwag에서 인간 평균을 10% 이상 초과했다는 것도 주목할 만한 사건이다. 하지만 이 숫자들이 말하지 않는 것이 훨씬 더 많다. 우리는 ‘얼마나 잘하는가’가 아니라, ‘어떻게 작동하며 누구에게 어떤 영향을 미치는가’를 물어야 한다.
스탠퍼드 AI 인덱스 2025는 단순히 성능을 측정한 기술 보고서가 아니다. 그것은 우리가 어떤 사회를 만들고 싶은가에 대한 지표이며, 기술을 어떻게 다뤄야 할지를 스스로 묻는 거울이다. 성능의 수치는 끝이 아니라, 대화를 시작하기 위한 출발점일 뿐이다.
#AI성능초월 #GPT4 #Claude3 #스탠퍼드AI리포트 #벤치마크AI #AI윤리 #HumanCenteredAI #기술과사회 #LLM분석 #스포트라이트유