프로젝트에서 보기 →

'GPT·제미나이' 모두 광탈? 깜짝 AI도 못 푼 '인류의 마지막 시험' / KNN

태그
기술 knn뉴스 e뉴스 인류
시작일
종료일
수정일

https://www.youtube.com/watch?v=V9eE8ANmxLg

1. 이건 꼭 알아야 한다

  • [? 질문] 최신 AI들이 각종 시험을 “손쉽게 통과”하는 상황에서, 왜 ‘GPT·제미나이’ 같은 최상급 AI조차 제대로 풀지 못하는 새로운 시험이 등장했고, 그 시험은 무엇을 어떻게 평가하며, 실제 성적은 어느 정도인가?[^1] @[00:01]
  • [= 답] 국제학술지 **네이처(Nature)**에 공개된 초고난도 AI 성능평가 벤치마크 **‘인류의 마지막 시험(The Last Exam)’**은 전 세계 전문가들이 제작한 AI 전용 학술 시험으로, 기존 벤치마크에서 높은 정확도를 보이던 AI들도 38.3%가 최고점일 만큼 낮은 정답률을 기록했다. 이 시험은 수학·물리·화학·생물뿐 아니라 공학·컴퓨터과학·인문학 등 광범위한 세부 학문 분야를 포괄하며, 전문가 수준의 문항(예: 로마 비문 번역, 특정 뼈가 지지하는 힘줄 수 등)으로 구성된다.[^2] @[00:09]

2. 큰 그림

이 뉴스는 “AI가 시험을 쉽게 통과하는 시대”라는 배경 위에서, 그 흐름에 제동을 거는 듯한 **초고난도 벤치마크 ‘인류의 마지막 시험’**의 공개 소식을 전한다.[^1] @[00:01] 이 시험은 네이처에 공개됐고, 전 세계 전문가가 참여해 만든 대규모 문항(약 2,500개)으로 구성된 AI 전용 학술 시험이라는 점이 강조된다.[^3] @[00:17] 또한 실제로 구글 제미나이, 오픈AI GPT, 딥시크 등 최신 모델들이 낮은 점수를 받았다는 결과와 함께, “이 시험이 정말 ‘마지막’인가”에 대해서는 연구진이 과도한 의미 부여를 경계한다는 메시지로 마무리된다.[^8] @[01:35]

핵심 메시지 3개

  1. **‘인류의 마지막 시험’**이라는 이름의 초고난도 AI 벤치마크가 네이처에 공개됐다.[^3] @[00:17]
  2. 문항은 2,500개 규모이며, 여러 학문 영역을 아우르고 전문가급 난도를 포함하도록 설계됐다.[^3] @[00:17]
  3. 최신 AI들도 정답률이 낮았고(최고 38.3%), 연구진은 ‘마지막’이라는 표현에 선 긋기를 하며 더 많은 도전 과제가 남았다고 말한다.[^6] @[01:10]

3. 하나씩 살펴보기

3.1 “AI가 시험을 너무 잘 푸는 시대”라는 문제의식에서 출발

📸 0:01

뉴스는 먼저 현재 상황을 “전 세계 최신 인공지능들이 각종 시험을 손쉽게 통과하는 시대”라고 규정한다.[^1] @[00:01] 즉, 그간의 여러 시험/벤치마크에서 AI가 높은 성과를 내며 ‘시험 통과’가 더 이상 놀라운 일이 아닌 환경이 조성됐다는 전제를 깔고 있다.

그런데 이 흐름과 대비되게, 그 AI들조차 ‘고개를 떨군’ 시험이 새로 등장했다고 소개한다.[^1] @[00:01] 여기서 “고개를 떨군”은 기존에는 높은 성능을 보여왔던 AI들이 이번에는 성적이 좋지 않다는 의미로 연결된다.

3.2 시험의 이름 자체가 메시지: ‘인류의 마지막 시험’

📸 0:09

해당 평가의 이름은 “인류의 마지막 시험”이라고 소개된다.[^2] @[00:09] 이름부터 강한 인상을 주는데, 뉴스는 이 명칭을 통해 “AI조차 통과하기 어려운 최후의 관문 같은 시험”이라는 이미지를 먼저 부각한다.

3.3 네이처 공개, ‘초고난도 AI 성능 평가’라는 공식성

📸 0:17

이 시험은 “현지 시간 29일” 국제학술지 네이처에 공개됐다고 전한다.[^3] @[00:17] 즉, 단순히 기업 내부 테스트나 커뮤니티 수준의 문제가 아니라, 학술지 공개를 통해 국제적으로 공신력 있는 형태의 벤치마크로 제시됐다는 점이 포인트다.

또한 시험 성격은 “초고난도 인공지능 성능 평가 시험”이며, “전 세계 전문가들이 참여해 제작한 AI 전용 학술 시험”이라고 규정한다.[^3] @[00:17] 여기에는 두 층위의 의미가 있다.

  • 난도: ‘초고난도’로, 기존 문제보다 훨씬 어렵다는 선언
  • 설계 의도: ‘AI 전용’이며 ‘학술 시험’ 형태로, 단순 상식이나 언어 유창성보다 학문적 추론·지식 적용을 보려는 성격

3.4 문항 규모: “문항 수만 2,500개”

📸 0:25

뉴스는 문항(원고에는 “운항수”로 표기되었으나 문맥상 문항 수) 규모가 “2,500개에 달한다”고 말한다.[^3] @[00:17] 이는 단발성 테스트가 아니라, 다양한 영역·난도를 촘촘히 평가할 수 있는 대규모 문제은행에 가깝다는 인상을 준다.

3.5 범위: 이과+공학+컴퓨터+인문까지 ‘세부 학문 분야’ 전방위

📸 0:35

시험 범위는 수학, 물리학, 화학, 생물학뿐 아니라 공학, 컴퓨터 과학, 인문학까지 “방대한 세부 학문 분야를 아우른다”고 설명한다.[^4] @[00:25] 여기서 강조점은 두 가지다.

  1. 전통적 STEM 중심을 넘어선 확장: 수학·물리·화학·생물 같은 기초과학에만 머무르지 않고 공학/컴퓨터과학(응용·기술 영역), 인문학(문헌 해석·언어·역사 등)까지 포함
  2. ‘세부 분야’ 단위의 깊이: 단순히 과목 이름만 나열하는 것이 아니라 “세부 학문 분야”라는 표현을 사용해, 각 영역에서도 전문적인 파트를 건드리는 구조임을 시사

3.6 문항 난도 예시: 로마 비문 번역, 특정 뼈가 지지하는 힘줄 개수

📸 0:50

뉴스는 “전문가 수준의 고난도 문제”가 포함되어 있다는 것을 구체 예시로 보여준다.[^5] @[00:35]

  • 묘비에서 발견된 로마 비문 일부를 번역하는 문제[^5] @[00:35]
    • 단순 번역이 아니라, “묘비에서 발견된” “로마 비문” “일부”라는 조건이 붙는다. 즉 고전 언어(라틴어 등)·고고학적 문맥·비문 특유의 약어/훼손/문장 구조 같은 난점이 암시된다.
  • (원고 표기) ‘벌세 종작골’이 몇 상의 힘줄을 지지하는지를 묻는 문제[^5] @[00:35]
    • 표현상 정확한 해부학 용어는 원고에 그대로 제시되어 있으며, 핵심은 특정 뼈(골격 구조)가 지지하는 힘줄 수를 묻는, 해부학/의학적 디테일을 요구하는 질문이라는 점이다.

이 두 예시는 “시험이 넓기만 한 것이 아니라, 각 분야에서 실제 전문가가 다루는 구체 디테일”을 문제로 낸다는 방향을 보여준다.

3.7 왜 만들었나: 기존 벤치마크 ‘정확도 90%’를 넘어서는 난도 필요

📸 0:51

뉴스는 이 시험이 “기존 AI 벤치마크에서 정확도 90%를 넘는 사례가 있다”는 상황에서 기획됐다고 말한다.[^5] @[00:35] 즉 기존 평가들은 이미 AI가 매우 높은 점수(90%+)를 기록하는 경우가 생겨났고, 그로 인해 성능을 더 촘촘히 가르고 한계를 확인할 새로운 고난도 평가가 필요해졌다는 논리다.

여기서 중요한 논리 흐름은 다음과 같다.

  • 기존 벤치마크: 어떤 경우에는 AI가 정확도 90% 이상
  • 그러면: “정말 어려운 문제에서의 한계”가 가려지고, 상위 모델 간 변별도도 떨어질 수 있음
  • 따라서: 더 어려운, 전문가 검증을 거친 문항 중심의 새 시험이 필요

3.8 출제 방식: “최고 성능 AI도 못 푼 문제만 선별” → 전문가 검증 → 최종 문항 확장

📸 1:00

뉴스는 출제(문항 구성) 과정의 특징을 강조한다.[^6] @[00:51]

  • “출제 당시 기준으로 최고 성능 AI조차 풀지 못한 문제만 선별”[^6] @[00:51]
    • 즉, 단순히 어려운 문제를 모은 것이 아니라 그 시점의 최상급 AI 모델들에 실제로 풀려봤을 때 실패한 문제들을 우선적으로 골랐다는 방식이다.
  • “전문가 검증을 거쳐 최종 문항으로 확장”[^6] @[00:51]
    • AI가 못 풀었다고 해서 곧바로 문항으로 쓰는 것이 아니라, 사람이 보기에도 문제가 적절하고 타당한지(정답이 명확한지, 난도가 과도하게 함정형인지, 영역 적합성 등) 전문가 검증 단계를 거친 뒤 최종 세트를 구성했다는 의미다.

이 부분은 시험이 단순 ‘AI 낚시’가 아니라, 학술적/평가적 정합성을 갖추려 했다는 정당화로 기능한다.

3.9 실제 결과: 최신 AI들도 “맥을 못 춘다”

📸 1:10

뉴스는 결과를 요약해 “AI들은 아직 이 시험 앞에서 맥을 못 주고 있다”고 표현한다.[^6] @[01:00] 이어서 점수(정확도)를 구체 수치로 제시한다.[^7] @[01:10]

  • 구글 제미나이 3(원고 표기: 제미나이 3프): **정확도 38.3%**로 최고점[^7] @[01:10]
  • 오픈AI GPT 5.2: 29.9%[^7] @[01:10]
  • 딥시크(DeepSeek): 21.8%[^7] @[01:10]

여기서 뉴스가 전달하는 핵심은 “최고 모델도 40%가 안 된다”는 충격 요소다. 즉 ‘인류의 마지막 시험’은 상위 모델 간 성능 비교를 넘어, 현 세대 AI의 근본적 한계가 드러나는 난도라는 인상을 준다.

또한 이 수치는 앞서 언급된 “기존 벤치마크 90%+” 상황과 강하게 대비되며, 새 시험이 왜 필요한지(혹은 왜 주목받는지)를 결과로 입증하는 역할을 한다.[^5] @[00:35]

3.10 제작 참여 규모: 50개국, 500여 기관, 약 1,000명

📸 1:19

문항 제작에는 “50개국 500여 기관에서 교수와 연구자 약 1천명이 참여”했다고 전한다.[^8] @[01:19] 이는 두 가지 메시지를 동시에 준다.

  • 국제적 참여: 특정 기업/국가 중심이 아니라 다국적 협업
  • 전문가 풀의 크기: 교수·연구자 1,000명 규모로, 문항의 전문성·검증성·다양성을 강조

3.11 한국 참여: AI 스타트업 및 연세대·KAIST 등 연구자 6명

📸 1:31

참여자 중 한국 관련 내용도 구체적으로 언급된다.[^8] @[01:19]

  • “AI 스타트업 에임 인텔리전스박하원 최고기술책임자(CTO)”가 참여했고[^8] @[01:19]
  • “연세대, 카이스트 등 국내 기관 소속 연구자 여섯 명도 이름을 올렸다”고 전한다.[^8] @[01:31]

즉, 이 벤치마크 제작이 글로벌 프로젝트일 뿐 아니라 한국 연구자들도 일부 기여했다는 점을 덧붙여 국내 시청자 관점의 연결고리를 제공한다.

3.12 ‘마지막’이라는 표현에 대한 거리두기: 과도한 의미 부여는 경계

📸 1:35

뉴스는 시험의 강렬한 이름과 달리, 연구진(“연구지”)이 “‘인류의 마지막 시험’이라는 표현에 과도한 의미를 부여하는 데에는 선을 그었다”고 말한다.[^9] @[01:35]

이는 다음과 같은 균형 장치로 작동한다.

  • 한편으로는 “AI도 못 푼다”는 충격을 전달하지만
  • 다른 한편으로는 “정말로 마지막 시험”처럼 받아들이는 과장된 해석(예: 여기서 AI가 통과하면 끝이다, 완전한 AGI 검증이다)을 경계한다

3.13 박하원 CTO 코멘트: ‘진짜 범용 AI’ 검증 벤치마크는 아직 없고, 도전은 계속된다

📸 1:40

마지막으로 박하원 CTO 발언이 인용된다.[^10] @[01:40]

  • “진짜 범용 인공지능을 완벽히 검증할 벤치마크는 아직 없다”[^10] @[01:40]
    • 즉, 이 시험이 어렵고 의미 있는 시도일 수는 있지만, **AGI(범용 인공지능)**의 ‘완벽한 검증’ 도구로 단정할 수는 없다는 입장이다.
  • “흥미롭고 도전적인 시험은 앞으로도 많이 남아 있다”고 설명[^10] @[01:40]
    • 벤치마크 경쟁은 계속될 것이고, 평가 방법 또한 계속 발전할 것이라는 전망/정리로 뉴스가 마무리된다.

4. 핵심 통찰

  1. 벤치마크 인플레이션에 대한 반작용: 기존 시험에서 90%+ 정확도가 가능한 상황이 나타나면서, “더 이상 그 시험이 최첨단 모델의 한계를 드러내지 못한다”는 문제의식이 생겼고, 그 대안으로 ‘AI가 실제로 못 푸는 문제’ 중심의 초고난도 벤치마크가 기획됐다.[^5] @[00:35]

  2. 범위의 넓이 + 깊이의 결합이 난도의 본질: 수학·과학만이 아니라 공학·컴퓨터과학·인문학까지 포괄하며, 동시에 로마 비문 번역이나 해부학적 디테일처럼 “세부 전문가 지식”을 요구하는 예시가 제시된다. 이 조합이 단순 지식회수(암기형)나 단일 분야 특화로는 버티기 어려운 시험임을 드러낸다.[^4] @[00:25]

  3. ‘마지막’이라는 명명은 주목을 끌지만, 연구진은 이를 절대화하지 않는다: 뉴스는 “과도한 의미 부여에 선을 긋는다”는 문장을 통해, 이 시험이 종결점이라기보다 새로운 평가의 한 단계임을 강조한다.[^9] @[01:35]

  4. 점수 공개 방식이 메시지를 강화: “제미나이가 38.3%로 최고”라는 수치 공개는, 단순히 ‘어렵다’가 아니라 “현존 최고 수준 모델도 (대부분 문제를) 틀린다”는 인상을 정량적으로 전달한다.[^7] @[01:10]


5. 헷갈리는 용어 정리 (해당 시에만)

  • 벤치마크(Benchmark): AI 성능을 비교·평가하기 위한 표준화된 시험/데이터셋/문항 세트를 의미한다. 뉴스에서는 기존 벤치마크에서 90%+ 정확도가 나오자 새 평가가 필요해졌다는 맥락으로 사용된다.[^5] @[00:35]
  • 정확도(Accuracy): 시험 문항에서 정답을 맞힌 비율. 이 뉴스에서는 제미나이 38.3%, GPT 29.9%, 딥시크 21.8% 같은 형태로 제시된다.[^7] @[01:10]
  • 범용 인공지능(AGI로 통상 지칭): 특정 과제에 특화된 AI가 아니라, 다양한 영역의 문제를 사람처럼 폭넓게 수행하는 ‘범용’ 능력을 뜻한다. 박하원 CTO는 이를 “완벽히 검증할 벤치마크는 아직 없다”고 언급한다.[^10] @[01:40]


참고(콘텐츠 정보)

  • 콘텐츠: 「'GPT·제미나이' 모두 광탈? 깜짝 AI도 못 푼 '인류의 마지막 시험' / KNN」[^3] @[00:17]
  • 채널: KNN NEWS
  • 길이: 2분 0초
  • 링크: https://www.youtube.com/watch?v=V9eE8ANmxLg

[^1]: “전 세계 최신 인공지능들이 각종 시험을 손쉽게 통과… 이 AI들조차 고개를 떨은 시험” @[00:01]
[^2]: “이름부터 인류의 마지막 시험” @[00:09]
[^3]: “현지 시간 29일… 네이처에 공개… AI 전용 학술 시험… 2,500개” @[00:17]
[^4]: “수학… 물리학, 화학, 생물학… 공학, 컴퓨터 과학, 인문학까지” @[00:25]
[^5]: “로마 비문 일부 번역… (특정 뼈가) 몇 상의 힘줄… 기존 AI 벤치마크 정확도 90% 넘는 사례” @[00:35]
[^6]: “최고 성능 AI조차 풀지 못한 문제만 선별… 전문가 검증… AI들은 아직… 맥을 못” @[00:51]~@[01:00]
[^7]: “제미나이… 38.3%… GPT 5.2 29.9%… 딥시크 21.8%” @[01:10]
[^8]: “50개국 500여 기관… 약 1천명… 박하원 CTO… 연세대, 카이스트… 여섯 명” @[01:19]~@[01:31]
[^9]: “과도한 의미를 부여… 선을 그었습니다” @[01:35]
[^10]: “범용 인공지능을 완벽히 검증할 벤치마크는 아직 없다… 도전적인 시험은 앞으로도” @[01:40]

← 프로젝트에서 보기