생성형 AI 활용 가능성이 높은 과목에서 A학점 비율 상승… 과제 중심 평가와 성적 신뢰성 논쟁 확산
생성형 AI 이후 대학 성적표에 생긴 새로운 질문
생성형 AI가 대학 교육에 던진 질문은 더 이상 “학생이 AI를 써도 되는가”에만 머물지 않는다. 이제 핵심은 “대학의 성적표가 여전히 학생의 실력을 증명할 수 있는가”로 이동하고 있다. 과제, 에세이, 코딩, 보고서, 온라인 제출물처럼 학생이 교실 밖에서 수행하는 평가 요소가 많은 대학 수업에서 생성형 AI는 이미 결과물의 생산 방식 자체를 바꾸고 있다. 학생이 제출한 글과 코드가 학생의 사고와 시행착오를 거쳐 나온 것인지, AI의 도움을 상당 부분 받아 만들어진 것인지 구분하기 어려워지면서 대학 성적의 정보 가치가 흔들릴 수 있다는 우려가 커지고 있다. UC버클리 고등교육연구센터의 Igor Chirikov가 발표한 워킹페이퍼 「Artificial Intelligence and Grade Inflation」은 이 문제를 성적 인플레이션의 새로운 경로로 제시한다. 기존의 성적 인플레이션 논의가 교수의 관대화, 학생평가 압박, 대학 간 경쟁, 학사정책 변화 등에 주로 초점을 맞춰 왔다면, 생성형 AI는 평가 이전 단계, 곧 학생이 제출물을 만들어내는 과정 자체를 바꾼다는 점에서 성격이 다르다. 연구는 생성형 AI가 학생의 실제 역량을 높이는 방식으로 작동할 수도 있지만, 동시에 학생이 수행해야 할 학습 과제를 대신 처리함으로써 성적은 오르지만 실력의 신호는 흐려지는 상황을 만들 수 있다고 본다.
이번 연구는 2018년부터 2025년까지 미국 텍사스의 한 대형 연구중심 공립대학에서 축적된 과목별 성적 분포와 강의계획서를 분석했다. 분석 대상은 319개 과목, 84개 학과, 2,552개의 과목-연도 관측치, 50만 건 이상의 학생 수강 성적이다. 연구는 각 과목의 강의계획서에 나타난 과제 유형을 바탕으로 글쓰기와 코딩처럼 생성형 AI가 수행하기 쉬운 과제가 많은 과목을 ‘AI 노출도’가 높은 과목으로 분류했다. 결과는 분명했다. ChatGPT 공개 이후 AI 노출도가 높은 과목에서 A학점 비율이 크게 증가했다. 연구에 따르면 AI 노출도가 높은 과목의 A학점 비율은 2022년 기준 대비 약 30%에 해당하는 13%포인트 상승했다. 평균 GPA도 0.12점 올랐고, 성적 분포는 상위권으로 압축되는 흐름을 보였다. 이는 단순히 전체 성적이 고르게 좋아졌다기보다 A학점으로 몰리는 현상이 강해졌다는 의미다.
University World News도 이 연구를 소개하며, ChatGPT 등장 이후 AI 활용 가능성이 높은 과목에서 A학점 비율이 이전보다 뚜렷하게 증가했다고 전했다. 보도에 따르면 연구자는 2018년부터 2025년까지의 강의계획서와 성적 자료를 비교해 AI가 더 잘 수행할 수 있는 과제가 많은 과목에서 성적 상승이 집중됐다는 점을 확인했다.
성적 상승은 학습 향상인가, 과제 대체인가
성적이 올랐다는 사실만으로 문제를 단정할 수는 없다. 생성형 AI가 학생의 학습을 도와 실제 이해도와 수행 능력을 높였을 가능성도 있다. 또는 AI를 잘 활용할 수 있는 우수한 학생들이 특정 과목을 더 많이 선택했을 수도 있다. 따라서 중요한 질문은 성적 상승이 실제 학습의 결과인지, 아니면 AI가 학생이 해야 할 과제 수행을 대신한 결과인지다. 연구는 이 질문을 풀기 위해 과목별 평가 구조를 함께 살폈다. 특히 숙제와 take-home 과제처럼 교수자가 수행 과정을 직접 감독하기 어려운 평가가 성적에서 차지하는 비중을 기준으로 분석했다. 만약 AI가 학생의 실제 학습을 높였다면, 성적 상승은 숙제 중심 과목과 시험 중심 과목 모두에서 나타나야 한다. 반대로 AI가 학생의 노력을 대체했다면, 성적 상승은 비감독 과제의 비중이 높은 과목에서 더 크게 나타날 가능성이 크다. 연구 결과는 후자에 가까웠다. 숙제 비중이 높은 AI 노출 과목에서 A학점 증가 효과가 더 크게 나타났다. 구체적으로 숙제 비중이 높은 과목에서는 같은 수준의 AI 노출을 가진 숙제 비중 낮은 과목보다 A학점 비율이 추가로 16%포인트 증가한 것으로 분석됐다. 연구자는 이 패턴이 단순한 학습 향상이나 우수 학생의 과목 선택만으로는 설명하기 어렵고, AI가 비감독 과제에서 학생의 노력을 대체했을 가능성과 더 잘 맞는다고 해석했다.
이 지점이 이번 연구의 핵심이다. 생성형 AI는 학생에게 유용한 학습 도구일 수 있다. 그러나 평가가 학생의 사고 과정보다 제출 결과물에 집중될 때, AI가 만들어낸 완성도 높은 결과물은 실제 학습 수준보다 높은 성적으로 이어질 수 있다. 문제는 AI 사용 자체가 아니라, 대학의 평가 방식이 AI 시대의 학습과 수행을 충분히 구분해내지 못할 수 있다는 데 있다.
대학 성적은 단순한 숫자가 아니다. 학생에게는 전공 선택과 자기평가의 기준이 되고, 대학원에는 선발 자료가 되며, 고용주에게는 지원자의 역량을 가늠하는 신호가 된다. 연구도 성적이 학생, 교수, 대학원, 고용주가 활용하는 기술 인증 장치라는 점에 주목한다. 그러나 성적이 학생의 실제 역량보다 AI의 도움을 받은 제출물의 완성도를 더 많이 반영하게 되면, 성적표가 제공하는 정보의 신뢰도는 낮아질 수밖에 없다.
특히 문제는 성적 인플레이션이 모든 과목에서 같은 방식으로 일어나지 않는다는 점이다. 글쓰기, 코딩, 보고서 작성처럼 생성형 AI의 능력과 겹치는 과제가 많은 수업에서 성적 상승이 더 크게 나타난다면, 같은 A학점이라도 과목과 평가 방식에 따라 의미가 달라질 수 있다. 이는 성적의 비교 가능성을 약화시킨다. 학생들이 동일한 학점을 받더라도 어떤 과목에서는 실제 수행 능력의 결과일 수 있고, 다른 과목에서는 AI 보조 결과물이 더 크게 반영됐을 수 있기 때문이다.
연구는 이 현상을 ‘성적 신호의 침식’으로 본다. 성적이 학생의 기술과 역량을 보여주는 지표로 기능하려면, 제출된 결과물이 학생이 실제로 할 수 있는 일과 일정한 관련을 가져야 한다. 그러나 AI가 학생의 과제 수행을 대체하는 상황이 늘어나면, 성적은 학생의 능력보다 도구 활용 결과를 더 많이 반영할 수 있다. 이 경우 대학 성적표는 더 높은 점수를 보여주지만, 그 점수가 무엇을 의미하는지는 오히려 불분명해진다.
이번 연구는 미국의 한 대학을 대상으로 한 분석이다. 따라서 이를 곧바로 모든 대학이나 한국 대학 전체에 일반화할 수는 없다. 연구 자체도 학생 개개인의 실제 AI 사용 여부를 직접 추적한 것은 아니며, 강의계획서상 과제 유형과 성적 분포 변화를 결합해 분석한 것이다. 그럼에도 이 연구가 던지는 질문은 한국 대학에도 그대로 적용된다.
한국 대학의 많은 수업은 보고서, 서평, 에세이, 코딩 과제, 발표자료, 팀 프로젝트, 온라인 퀴즈, 토론문 등 교실 밖에서 작성해 제출하는 평가 요소에 크게 의존한다. 특히 대형 교양수업이나 비대면·혼합형 수업에서는 교수자가 학생의 사고 과정과 수행 과정을 세밀하게 확인하기 어렵다. 학생이 결과물을 제출하면 교수자는 그 결과물의 완성도를 평가할 수 있지만, 그 과정에서 학생이 어떤 자료를 읽고, 어떤 판단을 했고, 어떤 시행착오를 거쳤는지까지 확인하기는 쉽지 않다.
생성형 AI는 바로 이 틈에 들어온다. 학생이 AI를 통해 초안을 작성하고, 문장을 다듬고, 코드를 수정하고, 참고자료를 요약하고, 발표자료를 구성하는 일은 이미 기술적으로 가능하다. 이런 활용이 학습을 돕는 방식이라면 긍정적일 수 있다. 그러나 학생이 핵심 사고 과정을 건너뛰고 결과물만 제출한다면, 성적은 높아져도 학습은 빈약해질 수 있다. 대학이 확인해야 할 것은 AI 사용 여부 자체보다 학생이 무엇을 이해했고, 무엇을 판단했으며, 무엇을 자신의 언어와 능력으로 수행할 수 있는가다.
AI 금지보다 평가 재설계가 필요하다
이 문제의 해법을 단순히 AI 금지에서 찾기는 어렵다. 모든 과제를 대면 시험으로 바꾸는 것도 현실적인 대안이 아니다. 글쓰기, 연구, 코딩, 프로젝트 수행 능력은 짧은 시험 시간 안에서 충분히 평가하기 어렵다. 대학 교육이 길고 복합적인 사고 과정을 요구한다면, 평가 역시 그 과정을 반영해야 한다. 문제는 과제를 없애는 것이 아니라, 과제가 학생의 실제 학습 과정을 더 잘 드러내도록 설계하는 데 있다.
가능한 방향은 여러 가지다. 최종 결과물만 평가하는 방식에서 벗어나 주제 선정, 자료 탐색, 초안 작성, 피드백 반영, 수정 과정, 최종 설명까지 단계별로 확인하는 평가가 필요하다. 학생이 AI를 사용했다면 어떤 단계에서 어떤 목적으로 사용했는지 밝히게 하고, 제출물에 대한 구두 확인이나 짧은 대면 설명을 병행할 수도 있다. 코딩 과제라면 최종 코드뿐 아니라 설계 의도, 오류 수정 과정, 대안 검토, 코드 설명 능력을 함께 평가해야 한다. 글쓰기 과제라면 완성된 문장의 매끄러움보다 논지 구성, 자료 해석, 자기 언어로 설명하는 능력을 확인해야 한다.
AI를 완전히 배제하는 평가와 AI를 무제한 허용하는 평가 사이에는 넓은 중간 지대가 있다. 어떤 수업에서는 AI 사용을 제한해야 하고, 어떤 수업에서는 AI 사용을 전제로 과제를 설계해야 한다. 중요한 것은 교수자와 대학이 평가의 목적을 분명히 하는 일이다. 학생에게 요구하는 것이 정보 검색인지, 글쓰기 능력인지, 개념 이해인지, 문제 해결인지, AI와 협업하는 능력인지에 따라 평가 방식은 달라져야 한다.

생성형 AI는 대학 교육의 위기이면서 동시에 평가를 다시 설계하게 만드는 계기다. AI가 학생의 학습을 도울 수 있다는 가능성은 분명하다. 그러나 그 가능성이 성적표의 신뢰를 자동으로 보장하지는 않는다. 학생이 AI를 활용해 더 나은 결과물을 제출할 수 있게 됐다면, 대학은 이제 그 결과물이 학생의 역량을 얼마나 반영하는지 묻는 새로운 평가 체계를 마련해야 한다.
이번 연구가 중요한 이유는 생성형 AI 논쟁을 부정행위의 문제로만 보지 않게 한다는 데 있다. 핵심은 학생을 의심하는 것이 아니라, 성적이 무엇을 증명하는지 다시 묻는 일이다. AI 시대의 대학 성적은 단순히 더 높은 점수를 기록하는 방식으로는 충분하지 않다. 학생이 실제로 배웠는지, 스스로 설명할 수 있는지, AI의 도움을 받더라도 핵심 판단과 책임을 감당할 수 있는지 확인해야 한다.
대학 성적표가 여전히 신뢰받는 문서로 남으려면, 대학은 평가의 초점을 결과물의 완성도에서 학습의 증거로 옮겨야 한다. 생성형 AI가 만든 매끄러운 답안이 아니라, 학생이 실제로 형성한 역량을 확인하는 평가가 필요하다. AI가 대학의 성적 인플레이션을 부추길 수 있다는 연구 결과는 그래서 단순한 기술 뉴스가 아니다. 그것은 대학이 오랫동안 당연하게 여겨온 평가 방식이 더 이상 예전처럼 작동하지 않을 수 있다는 경고다.
#생성형AI #대학성적 #성적인플레이션 #대학평가 #ChatGPT #고등교육 #스포트라이트유
