대화형 AI가 가장 잘 이해하는 언어는 무엇일까? 대부분의 사람들은 영어 또는 중국어를 떠올릴 것이다. 실제로 인터넷상에서 가장 많은 정보를 차지하는 언어도 이 두 가지이며, ChatGPT나 Google의 Gemini 같은 대표적인 AI 모델의 성능을 떠받치고 있는 것도 이 언어들이다.
그런데 2025년에 발표된 한 국제 연구 결과는 AI가 가장 잘 이해한 언어는 영어도, 중국어도 아니었다. 가장 높은 점수를 기록한 것은 폴란드어였다.
영어는 6위, 중국어는 21위에 그쳤다. 참고로, 한국어는 22위로 하위권에 머물렀다.
26개 언어로 본 AI가 가장 잘 이해하는 언어

미국 메릴랜드대, 마이크로소프트, 매사추세츠대 애머스트 캠퍼스의 공동 연구팀은 AI가 어떤 언어를 가장 잘 이해하는지를 측정하기 위해 원룰러(OneRuler)라는 새로운 평가 기준을 사용해 26개 언어를 비교했다.
원룰러 테스트는 긴 문맥을 기억하는 능력, 필요한 정보를 찾아내는 능력, 지시문을 올바르게 해석하는 능력, 여러 문장을 종합해 논리적으로 결론을 내리는 추론 능력까지, AI의 다양한 인지 기능을 동시에 검증하도록 설계되어 있다.
예를 들어 건초더미 속의 바늘 찾기(Needle in a Haystack)라는 과제에서는 수만 단어에 달하는 장문의 텍스트 속에서 단 한 줄의 답을 찾아내야 한다. AI가 문맥을 이해하고 추론해야만 풀 수 있는 고난도 테스트다. 이번 실험에서는 OpenAI의 ChatGPT, Google의 Gemini, Meta의 Llama, 그리고 중국 Alibaba의 Qwen 등 4개의 대표 모델이 동일한 조건에서 시험을 치렀다. 이로 인해 기업 간 성능 차이보다 언어별 이해도 차이가 더욱 뚜렷하게 드러났다.
📎 관련 글 보기
폴란드어가 1위, 영어와 중국어는 예상을 벗어난 순위
가장 놀라운 결과는 폴란드어가 평균 88%로 1위를 차지했다는 점이었다. 폴란드어는 슬라브어군에 속하지만, 영어와 프랑스어처럼 알파벳 문자를 사용한다.
연구팀은 그 이유로 높은 문법적 규칙성을 꼽았다. 폴란드어는 어미 변화가 명확해 문장 내 관계가 뚜렷이 드러나며, 길고 복잡한 문맥 속에서도 의미의 연결이 끊기지 않는다는 것이다.
또한 학습 데이터의 양은 영어보다 훨씬 적지만, 오탈자가 적고 문장이 정돈된 고품질 텍스트가 많아 데이터의 질적 안정성이 높다는 점도 영향을 준 것으로 보인다.
반면 영어는 동음이의어가 많고 표현이 모호한 구조 때문에 긴 문맥 처리에서 혼동이 발생하기 쉽다. 중국어는 단어 구분을 띄어쓰기로 표시하지 않으며, 한 글자에 여러 의미가 담겨 있기 때문에 AI가 문장을 단위별로 나누어 처리할 때 오류가 누적되기 쉽다.
학습 데이터가 가장 방대함에도 불구하고 영어가 6위, 중국어가 21위에 머문 이유는 바로 이런 언어 구조의 복잡성 때문이라고 연구진은 분석했다.
한국어는 22위 — AI가 어려워하는 언어 구조
폴란드어에 이어 러시아어, 프랑스어, 이탈리아어, 스페인어가 AI가 가장 잘 이해하는 언어 상위권에 올랐다. 이 언어들은 모두 알파벳을 사용하고, 문법 체계가 비교적 규칙적이라는 공통점을 가진다.
한편, 한국어는 26개 언어 중 22위였다.
AI는 문장을 처리할 때 ‘토크나이징(tokenizing)’이라 불리는 과정을 통해 문장을 단위별로 쪼개는데, 한국어는 이 과정이 까다로워 문장 분석 단계에서 오차가 생기기 쉽다.
또한 한국어는 어순이 유연하고, 주어나 목적어가 자주 생략되는 특성상 AI가 문맥을 파악하려면 앞뒤 관계를 더 섬세하게 추적해야 한다. 이런 구조적 특징이 AI의 이해도를 떨어뜨린 원인으로 지목된다.
26개 언어별 AI 독해력 순위
연구팀이 발표한 AI가 가장 잘 이해하는 언어 순위는 다음과 같다.
| 순위 | 언어 | 비고 |
|---|---|---|
| 1위 | 폴란드어 | 88%, 최고 정밀도 |
| 2위 | 러시아어 | |
| 3위 | 프랑스어 | |
| 4위 | 이탈리아어 | |
| 5위 | 스페인어 | |
| 6위 | 영어 | 데이터량은 세계 최대 |
| 7위 | 우크라이나어 | |
| 8위 | 스웨덴어 | |
| 9위 | 포르투갈어 | |
| 10위 | 독일어 | |
| 11위 | 노르웨이어 | |
| 12위 | 네덜란드어 | |
| 13위 | 헝가리어 | |
| 14위 | 덴마크어 | |
| 15위 | 일본어 | |
| 16위 | 체코어 | |
| 17위 | 베트남어 | |
| 18위 | 핀란드어 | |
| 19위 | 페르시아어 | |
| 20위 | 세르비아어 | |
| 21위 | 중국어 | 데이터는 많지만 낮은 정확도 |
| 22위 | 한국어 | |
| 23위 | 스와힐리어 | 동아프리카 지역 언어 |
| 24위 | 타밀어 | 남인도·스리랑카 지역 언어 |
| 25위 | 세소토어 | 남부 아프리카 언어 |
| 26위 | 힌디어 | 인도의 주요 언어 |