학생 윤리를 논하기 전에, 평가 설계를 먼저 돌아봐야 한다 : AI로 바뀐 것 아니라, 우리가 바꾸지 않은 것이 문제다

This post is also available in: English (영어)

또다시 ‘AI 커닝’…정말 새로운 사건인가

연세대학교에서 비대면 온라인 퀴즈 시험을 치르던 중 일부 학생들이 익명 채팅방과 구글 독스를 통해 문제와 답을 공유했다는 사실이 알려지면서, 언론은 다시 한 번 ‘AI 커닝’이라는 표현을 꺼내 들었다. 울산대학교에서도 44문항을 50분 안에 푸는 온라인 중간고사에서 생성형 AI를 활용한 것으로 의심되는 답안이 쏟아져 해당 시험이 결국 무효 처리됐다. 고등학교 국어 수행평가에서조차 학생들이 챗GPT로 줄거리와 비평을 만들어 그대로 옮겨 적었다는 사례가 보도되었다. 사건이 터질 때마다 헤드라인에는 빠지지 않고 “충격”, “대혼란”, “집단 부정행위”라는 단어가 붙는다. 대학가와 교육 현장이 갑자기 무너져 내린 것처럼 묘사된다. 그러나 이 사건들을 조금만 거리를 두고 바라보면, 이것은 어디까지나 새로운 기술이 등장한 뒤 ‘기존에 존재하던 취약점’을 그대로 둔 채 시간을 흘려보낸 데서 비롯된 결과에 가깝다. 부정행위의 방식과 도구는 달라졌지만, 그 도덕적·제도적 구조는 이미 오래전부터 교육 현장에 자리하고 있었다. 지금 벌어지는 일을 단지 “AI가 만들어낸 새로운 범죄”로만 볼 것인지, 아니면 “예견된 변화를 준비하지 못한 평가 체계의 실패”로 볼 것인지에 따라 이후 논의의 방향은 전혀 달라진다. 전자는 학생들의 윤리의식과 도덕성에 책임을 묻는 쪽으로 흐르고, 후자는 대학과 학교, 교육당국이 설계해온 평가 시스템을 근본적으로 돌아보는 쪽으로 향한다. 지금까지의 논의는 안타깝게도 전자에 치우쳐 있다.

연세대의 비대면 온라인 퀴즈 시험에서 학생들은 AI만 활용한 것이 아니라, 익명 채팅방과 구글 독스를 통해 문제와 답을 실시간으로 공유했다. 울산대 사례에서는 강의 수강생 90여 명이 온라인 프로그램을 통해 시험을 치렀고, 성적이 발표된 뒤 온라인 커뮤니티에서 “고득점자가 너무 많다, AI를 쓴 것이 분명하다”는 글이 올라왔다고 전해진다. 이 두 사례는 공통적으로 온라인 시험, 객관식 문항, 대규모 수강인원이라는 세 가지 요소를 가진다. 코로나19 팬데믹 이후 대학들이 급하게 도입한 비대면 강의와 온라인 퀴즈 방식은, 본질적으로 학생이 어떤 자료를 참고하는지, 누구와 소통하며 시험을 치르는지 통제하기 어렵다. AI가 없던 시절에도 온라인 시험은 항상 부정행위의 위험을 안고 있었고, 이를 감수하더라도 편의성과 비용 절감, 대규모 운영의 이점을 택한 것은 대학과 교수였다. 따라서 이번 사태를 두고 “학생들이 AI를 악용했다”는 점만 강조하면, 평가 방식에 대한 질문은 사라진다. 수백 명이 동시에 접속해 감시가 느슨할 수밖에 없는 환경에서 44문항의 객관식 시험을 온라인으로 치르는 선택을 한 것은 어디까지나 수업을 설계한 교수와 대학이다. 시험 난도와 형식, 문항 수와 시험 시간, 모니터링 방식은 모두 평가 설계자의 권한이자 책임이다. 그럼에도 부정행위가 의심되자 시험 자체를 무효로 하고, 논의의 초점을 학생 윤리의 문제로 옮기는 것은 구조적 책임을 희미하게 만든다.

수행평가에 AI가 끼어들기 전부터 이미 운동장은 기울어져있었다.

고등학생 국어 수행평가에서 챗GPT를 이용해 책의 줄거리와 비평을 작성한 사건은 많은 사람에게 충격을 준 것처럼 보인다. 그러나 조금만 기억을 거슬러 올라가보면, 수행평가가 지금까지 얼마나 다양한 방식으로 왜곡되어 왔는지 어렵지 않게 떠올릴 수 있다. 고액 과외에서 과제가 ‘컨설팅’이라는 이름으로 사실상 대필되는 경우, 수행평가 전문 업체가 학생과 학부모를 상대로 영업을 하는 경우, 학부모가 보고서와 작품 제작에 깊숙이 개입하는 경우 등은 어제오늘의 이야기가 아니다. 수행평가는 원래 학생의 과정을 세심하게 관찰하고, 일상적인 학습 성과를 반영하기 위해 도입된 제도다. 하지만 현실에서는 결과물만 제출받고 점수를 매기는 방식으로 운영되는 경우가 많았다. 교사가 개별 학생의 집필 과정과 실제 이해도를 꼼꼼히 확인할 시간과 여유를 확보하기 어려운 탓이다. 결과만 본다는 점에서, 누가 썼는지, 어떤 도움을 받았는지, 학생이 실제로 그 내용을 이해하고 있는지 확인하기는 불가능에 가깝다. AI가 등장하기 전부터 수행평가는 이미 부모찬스와 사교육의 영향을 강하게 받는 평가로 비판을 받아 왔다.

이 지점에서 중요한 것은, AI가 새로운 부정행위를 만들어냈다기보다 수행평가가 오래전부터 안고 있던 구조적 취약성을 극명하게 드러냈다는 사실이다. AI 없이도 이미 공정성을 담보하기 어려웠던 평가에, 이제는 누구나 무료 또는 저렴한 비용으로 접근 가능한 대필 도구가 추가된 것이다. 그 결과, “학생이 직접 썼는지”를 둘러싼 의심은 더 이상 예외적인 사건이 아니라 수행평가 제도 전체에 드리워진 그림자가 되었다.

경쟁과 서열에 기대 선 평가, 부정의 유혹을 구조화하다

평가가 존재하는 이유는 다양하지만, 학교 평가에서 가장 강력하게 작동하는 기능은 여전히 선발과 서열이다. 수능과 내신 등급, 수행평가 점수, 대학 내 성적은 모두 경쟁 구조 속에서 해석된다. 학급이나 학년에서 상대적으로 어디에 위치하느냐가 학생의 진로와 기회를 결정한다. 이처럼 시험이 ‘합격과 탈락’, ‘상위권과 하위권’을 가르는 도구로 기능하는 이상, 부정행위의 유혹은 항상 존재할 수밖에 없다. 이 사실을 누구보다 잘 아는 영역이 바로 국가고시다. 변호사시험, 의사국가시험, 각종 자격시험은 엄격한 감독과 통제 장치를 전제로 운영된다. 금속 탐지기, 전자기기 반입 금지, 일정 간격 이상의 자리 배치, 감독관의 상시 순회, 카메라 설치 등은 모두 시험의 공정성을 확보하기 위해 마련된 최소한의 조치다. 시험이 막대한 이해관계와 연결될수록, 제도는 더 세밀하게 부정을 예방하는 장치를 구축해왔다. 그러나 현실적으로 모든 대학 강의, 모든 고등학교 과목을 이런 수준으로 관리하는 것은 불가능하다. 매 수업마다 국가고시 수준의 감시 체계를 도입할 수도 없고, 모든 수행평가를 대면 면접이나 구술 시험으로 바꿀 수도 없다. 그렇다면 선택지는 두 가지뿐이다. 하나는 감시와 처벌을 더 강화하는 방향이고, 다른 하나는 평가 방식 자체를 바꾸는 것이다. 전자는 비용과 행정 부담 면에서 지속 가능하지 않다. 결국 남는 것은 평가 내용을 시대에 맞게 재설계하는 일이다.

광고
대학

서울대의 한 과목에서는 강의실에 비치된 컴퓨터로 코딩 문제를 푸는 중간고사에서 “AI 활용 금지”가 사전에 공지되었음에도 일부 학생이 챗GPT를 사용한 것으로 알려졌다. 연세대와 고려대에서도 유사한 사건이 이어지자, 언론은 “AI 사용 금지 규정을 어긴 학생들”이라는 프레임을 강조했다. 그 뒤를 이은 것은 “요즘 대학생들의 윤리의식이 무너졌다”는 진단이었다. 하지만 여기에는 중요한 질문이 생략되어 있다. AI 사용 금지는 얼마나 현실적인 규정인가. 지금의 대학생과 고등학생은 이미 과제, 번역, 요약, 자기소개서 초안 작성 등에서 생성형 AI를 일상적으로 활용해왔다. 학교는 그동안 AI의 장점을 홍보하고, 디지털 리터러시 교육의 일부로 AI 활용을 권장하기도 했다. 그러다 시험이 되는 순간 갑자기 “AI를 쓰면 안 된다”고 말하면서도, 어디까지가 허용된 활용이고 어디서부터가 부정행위인지는 설명하지 않았다. 이 모순된 메시지 속에서 학생들에게 요구되는 것은 단지 ‘눈치껏 알아서’라는 태도에 가깝다. 제도는 기준을 제공하지 않으면서, 윤리적 책임만 강하게 요구한다. “AI를 쓰면 0점”, “AI 흔적이 발견되면 F학점”이라는 식의 단순한 금지 규정은, 일시적으로 경각심을 줄 수는 있다. 그러나 AI가 점점 더 다양한 서비스와 기능에 자연스럽게 녹아들수록, 이 금지 조항은 적용 범위가 모호해지고 집행 가능성도 떨어진다. 규범이 현실을 따라가지 못하는 전형적인 모습이다.

무엇을 시험해야 하는가: 지식 재현에서 이해와 사고로

AI가 텍스트를 생성하고 문제를 풀 수 있는 시대에, “AI를 쓰지 말라”는 지시만으로는 교육의 본질을 지키기 어렵다. 더 근본적인 질문은 “우리는 무엇을 시험해야 하는가”에 있다. 검색 가능한 정보와 자동화된 계산이 넘쳐나는 환경에서 여전히 암기와 단순 재현 능력을 중심으로 한 평가를 유지하는 것은, 이미 사회적 타당성을 잃어가고 있다. 학생이 AI의 도움을 받았더라도, 그 과정에서 무엇을 이해했고 어떤 판단을 내렸는지, AI의 답변을 어떻게 검증하고 수정했는지, 문제 상황에 맞게 응용하고 비판할 수 있는지 등을 평가하는 방향으로 전환해야 한다. 다시 말해, 결과물 자체보다 결과물을 만들어내는 사고 과정과 그 과정에서 드러나는 역량에 초점을 맞추는 평가가 필요하다. 이는 단순히 기술 때문에 억지로 도입해야 하는 새로운 방식이 아니라, 원래 교육이 지향해왔던 목표와도 맞닿아 있다. 물론 이러한 변화는 쉽지 않은 일이다. 시험 문항을 새롭게 설계하고, 평가 기준을 재정비하며, 교사와 교수의 평가 역량을 키워야 한다. 그러나 이것이 어렵다는 이유로, 그리고 단기간에 성과가 잘 보이지 않는다는 이유로, 변화 대신 ‘금지’와 ‘윤리’만을 반복한다면 결국 교육 평가는 사회의 변화를 따라잡지 못한 채 점점 더 현실과 동떨어진 의례로 변할 것이다.

과정이 보이는 평가만이 AI 시대에 살아남는다

AI가 텍스트와 답안을 만들어 주는 시대에, 제출된 결과물만으로 학생의 학습을 판단하는 것은 사실상 불가능하다. 과제와 수행평가, 온라인 시험 모두 마찬가지다. 이제 평가 설계의 중심에는 ‘과정이 얼마나 투명하게 드러나도록 할 것인가’라는 기준이 들어와야 한다. 예를 들어 글쓰기 과제를 생각해보자. 현재처럼 완성된 에세이 한 편만 제출하게 하는 방식이라면, 그 글이 AI의 도움으로 작성되었는지, 과외 선생님이 방향을 잡아줬는지, 부모가 사실상 함께 썼는지, 혹은 학생이 실제로 혼자 고민하며 작성했는지 교사가 확인하기 어렵다. 반면 초안, 두 번째 버전, 피드백 후 수정본, 최종본 등 여러 단계의 문서를 제출하게 하고, 각 단계에서 학생의 선택과 수정 이유를 간단히 기록하게 한다면 이야기는 달라진다. 또한 수업 시간 일부를 활용해 글쓰기나 문제 해결의 일부 과정을 직접 수행하도록 하고, 이후 제출되는 결과물과 비교해보는 방식도 가능하다. 짧은 구술 인터뷰나 발표를 통해 학생이 자신이 쓴 글이나 해결한 문제를 설명하게 할 수도 있다. 시간이 더 들고, 평가자의 부담도 커지지만, 이런 방식만이 AI 시대에 학생의 실제 이해도를 확인할 수 있는 최소한의 장치가 된다. 과정을 중시하는 평가로의 전환은 선택이 아니라 필요 조건에 가깝다.

대학과 학교가 먼저 책임져야 할 것들

현재의 ‘AI 커닝’ 논란에서 가장 쉽게 사라지는 말은 “제도적 책임”이다. 하지만 예견 가능한 변화를 관리하지 못한 책임은 제도 설계자에게 먼저 있다. 챗GPT가 공개된 지 이미 2년 가까운 시간이 흘렀고, 그 사이 수많은 대학과 연구기관, 기업들이 AI 활용과 윤리, 평가 변화에 대해 논의해 왔다. 그럼에도 상당수 대학과 학교는 과제와 시험, 수행평가 운영 방식을 거의 바꾸지 않았다. 대학과 학교가 먼저 해야 할 일은 학생의 윤리의식을 문제 삼기 전에, 자신들이 설계한 평가가 AI 시대에도 여전히 유효한지 스스로 점검하는 일이다. 비대면 시험을 유지할 것이라면 어떤 방식으로 부정행위를 줄일 수 있을지, 수행평가를 계속 활용하겠다면 과정 검증 장치를 얼마나 확보할 수 있을지, AI를 부분적으로 허용할 것이라면 어디까지를 ‘학습 도구’로 인정하고 어디서부터를 ‘부정행위’로 볼지에 대한 구체적인 원칙을 세워야 한다. 이 과정에서 교사와 교수 개인에게만 책임을 떠넘겨서도 안 된다. 평가 설계와 운영은 개별 강의 수준을 넘어서는 문제다. 대학 차원의 가이드라인, 학과와 학교의 지원, 교사의 업무 부담을 줄이기 위한 구조 조정이 함께 논의되어야 한다. 그렇지 않으면, “AI 커닝을 막기 위해 평가 방식을 바꾸라”는 요구는 현장에서 이미 과중한 업무에 시달리는 교사와 교수에게 또 하나의 압박으로만 다가올 것이다. 정책과 제도 차원의 지원과 재구성이 수반될 때에만, 평가 개편은 실제 현실에서 구현될 수 있다.

제미나이 생성이미지

교육부는 고등학생 수행평가 사건 이후 “학교에서의 안전한 AI 도입·활용을 위한 가이드라인”을 내년 3월 배포하겠다고 밝혔다. 서울대, 연세대, 고려대, 울산대 등에서 잇따라 사건이 터지자 “AI 부정행위 방지 방안”을 시급히 마련하겠다는 계획도 언급했다. 이러한 대응은 늦었지만 필요한 조치다. 다만 문제는, 이 가이드라인이 단지 “시험 중에는 AI 사용 금지”나 “과제에 AI를 사용했다면 반드시 밝힐 것” 정도의 선언적 문구에 머문다면, 지금의 혼란은 크게 달라지지 않을 것이라는 점이다. 언론 역시 학생들의 행위를 도덕적 프레임으로만 다루기보다, 제도가 어떤 구조적 한계를 드러내고 있는지, 대학과 학교, 교육 당국이 얼마나 준비되지 않은 상태로 AI 시대를 맞이했는지에 더 깊은 관심을 기울일 필요가 있다. 이미 일부 기사에서는 비대면 강의의 급확산이 관리와 감독의 공백을 만들었고, 수강 인원이 수백·수천 명에 이르는 교양 강의에서 기존 방식의 시험과 과제가 사실상 현실성이 없다는 지적을 담고 있기도 하다. 그러나 이런 분석은 여전히 소수에 그친다.

지금 필요한 것은 “학생들의 도덕성 붕괴”라는 익숙한 서사 대신, “평가 체계의 시대적 부적합”을 중심에 놓는 새로운 프레임이다. 그래야만 정책도, 학교 현장도, 대학의 평가 시스템도 조금씩 방향을 틀 수 있다. 그리고 그 과정에서 학생들의 목소리 역시 단순한 ‘규범의 대상’이 아니라, 새로운 평가 방식을 함께 논의하는 주체로 초대될 수 있다.

AI 커닝 논란은 표면적으로는 학생들의 부정행위에 관한 이야기처럼 보이지만, 그 이면에는 훨씬 더 큰 질문이 놓여 있다. 과연 우리는 AI가 일상화된 사회에서, 여전히 과거의 방식으로 시험을 보고 성적을 매기고 있지는 않은가. 학생의 학습을 진정으로 드러내는 평가 대신, 관리하기 쉬운 방식과 오래된 관행에 의존하고 있지는 않은가. 예측 가능한 변화를 준비하지 못한 책임을 학생의 윤리의식과 도덕성 부족 탓으로 돌리는 것은, 교육의 이름으로 가장 쉬운 해법을 선택하는 일이다. 그러나 쉬운 해법은 대개 근본 문제를 남겨둔 채 다른 형태의 위기를 불러온다. 지금 우리가 마주한 ‘AI 커닝’ 사태도 마찬가지다. 기술은 계속 진화할 것이고, AI는 더 자연스럽게 우리의 학습과 업무에 녹아들 것이다. 그때마다 “이번에는 더 엄격하게 금지하겠다”, “더 강하게 처벌하겠다”는 말만 반복한다면, 교육 평가는 점점 더 현실과 괴리된 규범으로 남을 것이다.

이제 질문을 바꿔야 한다. “학생들이 왜 AI로 부정행위를 했는가”에서 “어떤 평가 구조가 그런 선택을 유혹하도록 만들었는가”로, “AI를 어떻게 금지할 것인가”에서 “AI가 존재하는 세계에서 무엇을, 어떻게 평가할 것인가”로, “학생들에게 어떤 윤리를 요구할 것인가”에서 “제도와 학교는 어떤 책임을 먼저 져야 하는가”로 시선을 옮겨야 한다. 그 전환이 이루어질 때 비로소, AI 시대의 교육 평가는 학생과 교사, 학교와 사회 모두에게 설득력 있는 답을 내놓을 수 있을 것이다.

#AI커닝 #생성형AI #비대면시험 #수행평가 #대학교육 #교육평가 #학습공정성 #AI교육가이드라인 #스포트라이트유

Social Share

More From Author

2026학년도 수능 채점 결과 분석 : 응시자 49만 3천 명, 선택과목 쏠림 강화… 국·수·영 전 영역 구조가 재편되고 있다

전북대학교, 우즈벡 세계언어대학과 ‘2+2 복수학위제’ 추진…국제 교류협력 대폭 확대

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다