“이제 인공지능이 변호사 시험을 통과하고, 의사보다 진단을 더 정확히 내린다.”
요즘 미디어를 장식하는 이런 헤드라인을 보면 묘한 위기감이 엄습한다. 정말 AI가 인간의 지능을 완전히 넘어선 것일까?
기술의 비약적인 발전은 분명한 사실이지만, 그 실력을 증명한다는 성적표를 들여다보면 조금 다른 이야기가 보인다. 우리가 믿어 의심치 않았던 성능 평가지표, AI 벤치마크 테스트가 실은 AI에게 지나치게 유리하게 설계된 것은 아닌지 의구심이 커지고 있기 때문이다.
AI 벤치마크 테스트, 445개의 시험지가 말해주지 않는 것들
옥스퍼드대 인터넷 연구소에서 현재 AI 성능 평가에 표준처럼 사용되는 445종류의 벤치마크 도구를 정밀 분석했다.
전문 자격시험 문제부터 고난도 코딩 테스트까지, AI 모델들의 서열을 매기는 기준들을 샅샅이 훑은 것이다.
빅테크 기업들은 신모델을 출시할 때마다 이 점수들을 근거로 승전고를 울린다. “우리 AI는 인간 상위 1%의 점수를 기록했다”거나 “경쟁사 모델보다 수학 능력이 20% 높다”는 식의 마케팅이 쏟아진다.
하지만 연구의 결론은 차갑다. 이 점수들이 AI의 실제 업무 수행 능력이나 지능의 깊이를 온전히 반영하지 못한다는 것이다.
쉽게 말해, 시험 점수는 100점인데 실제 현장에 투입하면 기초적인 응용조차 못 하는 암기왕일 가능성이 크다는 것이다.
📎 관련 글 보기
추론하는 AI인가, 검색하는 AI인가?
연구진이 사례로 든 초등 수학 문장제 데이터셋, GSM8K 분석 테스트는 단순히 계산기를 두드리는 게 아니라, 문맥을 파악해 식을 세우고 답을 도출하는 산술 추론 능력을 측정한다고 하지만, 대다수 AI 모델이 이 테스트에서 고득점을 받은 방법은 뜻밖이었다.
AI가 논리적 사고를 거쳐 답을 낸 것이 아니라, 학습 과정에서 이미 훑어본 방대한 데이터 속에서 가장 비슷한 유형을 찾아내 출력했을 뿐이라는 분석이다.
이것은 진정한 의미의 지능이라기보다, 초고속으로 정답지를 베껴 쓰는 행위에 가깝다. 만약 문제의 조건이나 숫자를 아주 살짝만 비틀어, AI가 학습 데이터에서 보지 못한 생소한 형태로 제시하면 점수는 처참하게 떨어진다. 우리는 AI의 사고력이 아니라 데이터 기억력에 점수를 주고 있었던 것이다.
AI 열풍 속에서 되짚어볼 문제
이러한 논란은 한국의 AI 산업에도 시사하는 바가 크다. 네이버의 하이퍼클로바X를 비롯해 국내 기업들도 한국어 특화 모델을 내놓으며 성능 경쟁에 박차를 가하고 있다. 수능 문제를 풀게 하거나 공무원 시험 점수를 공개하며 성능을 과시하기도 한다.
하지만 한국어는 맥락과 중의적 표현이 많아, 단순히 데이터 매칭만으로는 해결할 수 없는 영역이 넓다. 만약 국내 AI 기업들이 글로벌 벤치마크 점수를 올리는 데만 급급해 ‘시험용 데이터’ 학습에만 치중한다면, 실제 국내 사회의 복잡한 비즈니스 환경이나 문화적 맥락을 이해하는 데는 한계를 보일 수밖에 없다.
진짜 한국형 AI라면 점수판 위의 숫자보다, 한국어 특유의 뉘앙스를 이해하고 논리적인 오류 없이 대안을 제시하는 진짜 실력을 증명해야 한다.
📎 관련 글 보기
평가의 패러다임을 바꿔야 할 때
연구의 결론은 명확하다. 이제는 AI에게 정답만을 요구하는 테스트에서 벗어나야 한다.
- 과정의 평가: 정답만 맞히는 것이 아니라, 어떤 논리적 단계를 거쳐 그 결론에 도달했는지 설명하게 해야 한다.
- 변화의 대응: 기존 학습 데이터에는 없던 완전히 새로운 시나리오를 던져주고, AI가 얼마나 유연하게 대처하는지 측정해야 한다.
- 인간과의 협업: 혼자 문제를 푸는 능력이 아니라, 인간의 피드백을 실시간으로 수용하며 최선의 결과물을 도출하는 능력을 평가 항목에 넣어야 한다.
결과 중심의 평가 구조에서는 AI가 인간을 이기는 것처럼 보이기 쉽다. 하지만 그 과정의 깊이를 따져 묻기 시작하면, 여전히 스스로 생각하는 AI는 우리가 기대하는 수준에 미치지 못할 수도 있다.
“AI가 인간을 추월했다”는 말은 자극적이고 매혹적이다. 하지만 그 판단 근거가 되는 시험지가 AI에게만 유리하게 짜인 것이라면, 우리는 거대한 착시 현상 속에 살고 있는 것일지도 모른다.
인공지능은 도구일 뿐이다. 도구의 성능을 과대평가하는 것은 과소평가하는 것만큼이나 위험하다. 지금 우리에게 필요한 것은 AI가 내놓은 높은 점수에 환호하는 것이 아니라, 그 점수가 어떤 과정을 통해 만들어졌는지 집요하게 파고드는 비판적 시각이다. AI 시대의 진정한 경쟁력은 기술 그 자체가 아니라, 기술의 실체를 정확히 꿰뚫어 보는 인간의 통찰력에서 나올 것이다.