"ChatGPT 美 변호사 시험 상위 10%로 통과"
"Claude 3, AI 첫 IQ 100 돌파"
위와 같이 AI의 능력을 홍보하는 문구들을 자주 접하셨을 것 같습니다. 이러한 성과들이 대단해 보이기는 하지만, 한편으로는 그 수준이 어느 정도인지 체감이 안될 때가 있는데요. 마침 지난 목요일 치러진 2025 대학 수능 시험을 통해 AI 능력을 시험해 보기로 했습니다.
우선, 현시점 가장 우수한 모델이라고 평가받는 ChatGPT와 Claude를 테스트 대상으로 선정했으며, 그중에서도 'ChatGPT-4o' 모델과 'Claude 3.5 Sonnet' 모델을 선택했습니다. OpenAI의 경우 추론에 특화된 'o1' 모델도 존재하지만, 수능 문제에 시각 자료 해석이 필요한 문항들이 포함되어 있고 PDF 파일 업로드가 필요했기에 이러한 기능들을 지원하는 'ChatGPT-4o' 모델로 테스트를 진행했습니다.
평가 과목으로는 국어, 영어, 수학을 선택했는데요. 그 이유는 AI의 언어 처리 능력과 수리적 사고력을 종합적으로 평가하기 위함이고, 특히 한국어 능력 수준이 어느 정도 되는지 가늠해 보기 위함입니다.
실망스러운 결과?
그렇게 시작된 테스트 결과는 생각보다 실망스러웠습니다. 두 AI 모두 정답률이 50%에도 미치지 못했기 때문입니다. "미국 변호사 시험도 통과하고 100이 넘는 IQ를 보유한 AI도 수능의 벽은 높았다"라는 결론을 내리려던 중, 의문이 들어 틀린 문항 하나를 직접 텍스트로 입력해 풀이를 요청해보았는데요. 이전과 달리, 두 AI 모두 정답을 맞혔습니다. 이를 통해 AI의 PDF 인식 능력과 시험지와 같은 복잡한 구성의 문서 해석 능력은 아직 미흡하다는 점을 확인할 수 있었습니다.
그러나 이번 테스트의 목적은 PDF 인식 능력이 아니라, 수능 문제 해결 능력을 비교하는 것이었기에 번거롭더라도 AI가 정확히 문제를 이해할 수 있도록 모든 문항을 직접 텍스트로 입력하여 테스트를 진행하기로 했습니다.
국어 대결 결과 : Claude 승!
먼저 국어 영역 대결 결과를 살펴보겠습니다. 테스트는 다음과 같은 방식으로 진행했습니다.
1) 홀수형 공통 문항 1~34번 문제를 대상으로 진행
2) 지문과 연계된 여러 문항이 있는 경우 지문 단위로 문제 제시
3) 기본적으로는 텍스트를 입력하여 요청하되, 시각 자료가 포함된 경우 이미지도 함께 제공
4) ‘㉠’, ‘㉡’과 같이 특정 단어나 문장을 가르키는 경우 해당 부분을 따옴표로 묶어 표시
2025 수능 국어 문제 풀이 결과 (ChatGPT-4o vs Claude 3.5 Sonnet)
결과는 보시는 바와 같이 단 한 문제 차이로 갈렸습니다. 두 AI는 4개의 동일한 문항에서 오답을 기록했고, ChatGPT가 추가로 1문제를 더 틀려 3점 차이가 발생했습니다.
주목할 점은 공통 오답 중 3번과 16번 문제 모두 시각 자료를 해석해야 하는 문항이었다는 것입니다. 이를 통해 PDF 인식뿐만 아니라 이미지를 해석하는 능력에 있어서도 부족함이 있음을 알 수 있습니다. 참고로, Claude의 경우 시각 자료가 포함되지 않은 다른 문항들은 대부분 맞췄기에, 이미지 해석 능력만 향상된다면 더 좋은 성적을 거둘 수 있었을 것으로 보입니다.
흥미로운 점은 7번 문항의 결과입니다. 이 문항은 유웨이교육평가연구소에서 까다로운 문제로 꼽으며, 상위권 변별 문항이 될 것으로 지목했는데요. 두 AI 모두 오답을 기록해 아직은 최상위권 수준의 실력에는 미치지 못함을 보여주었습니다.
2025 수능 국어 예상 등급컷
그렇다면 두 AI의 수능 등급은 어떻게 될까요? 두 AI가 기록한 점수를 100점 만점으로 환산할 경우 ChatGPT는 82점으로 3등급, Claude는 86점으로 2등급에 해당됩니다.
영어 대결 결과 : Claude 승!
다음은 영어 영역 대결 결과를 살펴보겠습니다. 테스트는 다음과 같은 방식으로 진행했습니다.
1) 듣기 평가를 제외한 18~45번 문항을 대상으로 진행
2) 지문과 연계된 여러 문항이 있는 경우 지문 단위로 문제 제시
3) 기본적으로는 텍스트를 입력하여 요청하되, 시각 자료가 포함된 경우 이미지도 함께 제공
4) ‘㉠’, ‘㉡’과 같이 특정 단어나 문장을 가르키는 경우 해당 부분을 따옴표로 묶어 표시
2025 수능 영어 문제 풀이 결과 (ChatGPT-4o vs Claude 3.5 Sonnet)
결과는 놀라웠습니다. Claude가 만점을 기록한 것입니다. ChatGPT도 두 문제만 틀리며 확실히 국어보다는 영어에 강한 모습을 보였습니다.
특히 주목할 점은 두 AI 모두 시각 자료 해석이 필요한 3문제를 맞혔다는 것입니다. 앞서 국어 영역에서 이미지 해석에 어려움을 보였던 것과는 대조적인 결과로, 영어에 대한 높은 이해도가 시각 자료 해석의 한계를 보완한 것으로 해석됩니다.
아울러 ChatGPT가 틀린 24번 문항은 메가스터디에서 난이도 '상'으로 분류했고, 수험생들의 이의제기가 가장 많았던 문항인데요. 이 부분에서 두 AI의 실력이 판가름 났다고 해석할 수 있습니다.
두 AI가 기록한 점수를 100점 만점으로 환산한다면, ChatGPT는 94점, Claude는 100점으로 절대평가 방식을 적용되는 영어 분야에서 두 AI 모두 1등급에 해당됩니다.
수학 대결 결과 : ChatGPT 승! (인 듯 보였으나)
마지막으로 수학 영역 대결 결과를 살펴보겠습니다. 수학은 수식을 직접 입력하기 어려워 부득이하게 이미지를 제공해 풀이를 요청했습니다. 또한, 홀수형 공통 문항 1~22번 문제를 대상으로 진행했고 결과는 다음과 같습니다.
2025 수능 수학 문제 풀이 결과 (ChatGPT-4o vs Claude 3.5 Sonnet)
박빙이었지만, 1문제 차이로 ChatGPT가 승리했습니다. 수학 능력에 있어서는 ChatGPT가 우수한 것으로 결론을 내리려던 찰나, 한 가지 의문스러운 점이 발견됐습니다. 바로 Claude가 2점짜리 문항을 틀렸다는 사실인데요. 알고 보니 이미지를 잘못 인식해서 결괏값이 달라졌다는 것을 확인할 수 있었습니다.
수학 문항 LaTeX 코드 변환 예시
서두에 말씀드렸듯 이번 대결의 목적은 수학 처리 능력을 보기 위함이기 때문에 Claude에게 한 번의 기회를 더 주었습니다. 문제를 정확히 이해할 수 있도록 *LaTeX(수학 문서 작성용 시스템) 코드로 변환한 뒤 다시 풀이를 진행했고, 바뀐 결과는 다음과 같습니다.
2025 수능 수학 문제 2차 풀이 결과 (ChatGPT-4o vs Claude 3.5 Sonnet)
문제를 정확하게 이해하자 Claude는 4문제를 더 맞추었고, 최종적으로는 ChatGPT를 앞섰습니다. 수학 영역에서는 이외에도 흥미로운 점이 몇 가지 더 발견됐는데요. 먼저, Claude가 틀린 문항은 모두 4점짜리라는 사실입니다. 이는 AI가 아직까지 복잡한 수학적 추론에는 한계를 가진다는 점을 알 수 있었습니다.
또한, 두 AI 모두 객관식보다 주관식에서 더 낮은 정답률을 보였습니다. 주관식에 4점짜리 문항이 많은 탓도 있지만, 객관식의 경우 보기를 통해 정답을 유추할 수 있는 가능성이 있었기 때문으로 추정됩니다.
2025 수능 수학 예상 등급컷
그렇다면 수학은 몇 등급일까요? 마찬가지로 100점으로 환산한다면 ChatGPT는 61점, Claude는 73점입니다. 선택 과목별 차이가 조금 있겠지만, ChatGPT는 4등급, Claude는 3등급 정도로 평가할 수 있습니다.
ChatGPT와 Claude, 서울대 갈 수 있을까?
이번 테스트는 공통 문항과 영어 듣기를 제외한 평가만 진행됐습니다. 따라서 실제 성적과는 다소 차이가 있을 수 있으나, 동일한 조건에서의 비교에서는 Claude가 전반적으로 우수한 성적을 기록했다는 것은 알 수 있었습니다. 이제 전체 테스트 결과를 정리해 보겠습니다.
2025 수능 점수 결과 (ChatGPT-4o vs Claude 3.5 Sonnet)
탐구 영역은 시각 자료를 해석해야 하는 문제들이 많아, 위에서 기록한 성적보다 낮은 성적을 기록할 것으로 예상됩니다. 설령 비슷한 수준을 유지한다 하더라도 수학 영역에서 많은 점수를 까먹으면서 두 AI 모두 서울대를 비롯한 최상위권 대학 합격은 어려울 것으로 보입니다.
그러나 주목할 점은 이들의 발전 속도입니다. ChatGPT는 출시된 지 이제 겨우 2년이 됐고, Claude는 2년도 채 되지 않았습니다. 이에 따라 이번 성적도 충분히 놀라운 성과라 할 수 있습니다. 이러한 발전 속도를 감안하면, 전 영역에서 1등급을 받는 AI의 등장도 멀지 않아 보입니다.
마지막으로, 이번 테스트 결과를 종합해 보면 다음과 같은 결론을 얻을 수 있습니다.
1) 두 AI 모두 아직 PDF 인식에는 한계를 보였으며, 이미지 인식 능력은 ChatGPT가 약간 우세하다.
2) 동일 조건에서 언어 처리 능력과 수학적 사고력 모두 Claude 3.5 Sonnet이 우세하다.
3) 한국 수능을 기준으로, 두 AI 모두 최상위권에는 미치지 못했으나 상위권 수준의 성적이 가능하다.
※ 최대한 공정한 테스트를 위해 노력했으나, AI의 특성상 같은 동일한 질문에도 답변이 달라질 수 있으며, 문제 입력 형식에 따라서도 결과가 달라질 수 있음을 참고해 주시기 바랍니다.
*위 글은 'Tech잇슈' 뉴스레터에 실린 글입니다.
테크잇슈는 제가 직접 만드는 쉽고 재밌는 IT 트렌드 레터입니다.
IT 이슈 모음과 위와 같은 칼럼을 전달드리고 있으니, 관심 있는 분들은 구독 부탁드립니다 :)