프로젝트에서 보기 →

[이런뉴스] 인간의 마지막 무기는 '창의성'? AI와 겨뤘더니 놀라운 결과가… / KBS 2026.01.23.

태그
과학 KBS KBS NEWS KBS뉴스
시작일
종료일
수정일

https://www.youtube.com/watch?v=VWjc60xIhJY

1. 이건 꼭 알아야 한다

  • [? 질문] 급속도로 발전하는 생성형 AI 시대에, 인간이 AI와 창의성에서 여전히 우위에 있다고 말할 수 있는가? 또, “인간의 마지막 무기 = 창의성”이라는 통념은 실제 데이터로 검증되는가?[^1] @[00:01]
  • [= 답] 연구 결과에 따르면 일부 최신 AI 모델은 ‘평균적인 인간’보다 창의성 점수가 높게 나왔고, AI의 창의적 글쓰기 능력도 인간 수준에 상당히 접근했다.[^8] @[00:58] 하지만 창의성이 높은 사람들(상위 50%, 특히 상위 10%)은 모든 AI보다 평균 점수가 높아 인간의 ‘상위 창의성’ 구간에서는 뚜렷한 우위가 확인됐다.[^10] @[01:14] 또한 AI의 창의성 점수는 온도(temperature)와 프롬프트 설정에 따라 크게 변동한다는 점이 함께 제시됐다.[^11] @[01:25]

2. 큰 그림

이 콘텐츠는 “AI와 차별되는 인간의 핵심 역량은 창의성”이라는 널리 퍼진 주장에 대해, 실제로 AI와 인간의 창의성을 직접 비교한 대규모 연구 결과를 소개한다.[^1] @[00:01] 연구는 국제학술지 Scientific Reports에 게재됐으며, 생성형 AI(여러 거대언어모델)와 무작위로 구성된 인간 10만 명의 창의성(특히 확산적 사고 및 글쓰기 과제)을 비교했다.[^2] @[00:09]

  • 핵심 메시지 1: 평균 비교에서는 AI가 인간을 일부 능가할 수 있다(일부 모델이 인간 평균보다 높은 창의성 점수).[^8] @[00:58]
  • 핵심 메시지 2: 그러나 창의성 상위권 인간은 AI를 확실히 앞선다(상위 50%가 AI보다 높고, 상위 10%는 격차가 큼).[^10] @[01:14]
  • 핵심 메시지 3: AI의 창의성은 고정된 능력치가 아니라 설정값(온도, 프롬프트)에 크게 좌우된다.[^11] @[01:25]

3. 하나씩 살펴보기

3.1 문제 제기: “인간의 핵심 역량은 창의성”이라는 통념의 검증 필요

콘텐츠는 먼저, AI가 급속도로 발전하는 상황에서 사람들 사이에 “AI와 구별되는 인간의 핵심 역량은 창의성”이라는 말이 자주 나온다고 전제한다.[^1] @[00:01] 즉, 계산/분석/반복 업무에서 AI가 강해질수록 인간이 경쟁력을 가지려면 ‘창의성’이 남는다는 관점이 대중 담론에서 강조되고 있음을 깔고 있다.

이어 이 주장을 실제로 확인할 만한 연구가 등장했음을 알리며, AI와 인간의 창의성을 비교한 연구가 국제학술지 Scientific Reports에 게재됐다고 소개한다.[^2] @[00:09] 이 지점에서 콘텐츠의 목적은 “창의성은 인간만의 것인가?”라는 질문을 비교 실험 결과로 답하려는 데 있다.


3.2 연구의 권위/참여진 소개: ‘AI 대부’ 요수와 벤지오 등이 참여한 공동 연구

연구는 단순한 소규모 실험이 아니라, AI 분야에서 영향력이 큰 인물(‘AI 대부’로 불리는) 요수와 벤지오(캐나다 몬트리올대 교수) 등이 참여한 공동 연구진이 수행한 것으로 제시된다.[^3] @[00:15] 이는 연구의 신뢰도와 학술적 맥락을 강조하는 장치로 기능한다. 즉 “유명 연구자들이 참여했고, 학술지에 실렸다”는 정보로 연구 결과의 무게감을 먼저 전달한다.

또한 연구진이 생성형 AI들과 인간 10만 명의 창의성을 비교했다는 규모가 함께 제시된다.[^3] @[00:15] 여기서 핵심은 ‘10만 명’이라는 표본 수가 단순 인상비평이나 소표본 실험이 아니라 대규모 비교임을 부각한다는 점이다.


3.3 측정 방식 1: 창의성의 핵심 요소로 ‘확산적 사고’를 평가하는 단어 과제

연구팀은 AI 그룹과 인간 그룹의 창의성을 비교하기 위해, 창의성의 핵심 요소로 확산적 사고(divergent thinking) 능력을 평가했다고 설명한다.[^4] @[00:24] 확산적 사고란 정답이 하나로 고정된 문제를 푸는 방식이 아니라, 여러 방향으로 연상을 확장하며 새로운 연결을 만들어내는 능력이라는 맥락에서 창의성과 연결된다.

이를 평가하기 위한 구체 과제로, 참가자(또는 모델)에게 **“의미상 거리가 가장 먼 단어 10개를 나열”**하게 했다고 소개한다.[^4] @[00:24] 즉 서로 관련이 적고 멀어 보이는 개념들을 동시에 떠올리고 제시하는 능력을 측정해 창의성을 점수화한 것이다.

콘텐츠는 이 과제의 평가 논리를 다음처럼 풀어 설명한다.

  • “의미상 관련 없어 보이는 단어를 잘 연상할수록”
  • “고정관념에 얽매이지 않고”
  • “창의성 점수가 높은” 것으로 간주한다.[^5] @[00:32]

즉, 단어 간의 ‘의미 거리’가 멀어질수록(또는 멀게 구성할수록) 발상 전환과 연상 확장이 잘 일어나는 것으로 보고, 이를 창의성으로 채점하는 구조다.


3.4 측정 방식 2: 다양한 글쓰기 과제 수행(창의적 글쓰기 포함)

연구팀은 단어 과제뿐 아니라 **“다양한 글쓰기 작업”**도 수행하게 했다고 소개한다.[^6] @[00:40] 여기서 글쓰기는 단어 나열보다 더 복합적인 창의성—아이디어 생성, 구성, 표현, 맥락화—을 요구한다는 점에서 AI와 인간의 실제적인 창작 역량을 비교하는 실험 축으로 기능한다.

후반부에서 “AI가 인간의 창의적 글쓰기 능력 등에 상당히 접근”했다는 결론이 언급되므로,[^9] @[01:06] 글쓰기 과제는 단지 부가 실험이 아니라 “AI가 창의적 산출에서도 어디까지 왔는가”를 보여주는 핵심 근거로 쓰인다.


3.5 비교 대상(참가자/모델) 구성: 최신 LLM vs 무작위 인간 10만 명(성비 50:50)

AI 참가자로는 최신 거대 언어 모델들이 포함됐다고 구체적으로 열거한다. 예시로 ChatGPT의 GPT-4, Claude, Gemini 등이 참가했다고 말한다.[^7] @[00:50] 즉 비교 대상이 구형 모델이 아니라 ‘최신 모델’이므로, 연구 결과가 “현재 AI의 실력”을 반영한다는 점이 강조된다.

인간 참가자는 **남성 50%, 여성 50%**로 구성된 10만 명의 무작위 인간 그룹으로 제시된다.[^7] @[00:50] 여기서 핵심은 다음 두 가지다.

  1. 성비를 50:50으로 맞췄다는 언급은 표본 구성의 균형을 강조한다(성별 편향 최소화 의도).
  2. “무작위”라는 표현을 통해 특정 직업군(예: 작가, 디자이너)만 뽑은 것이 아니라 일반 인구에 가까운 평균적 집단을 상정하는 비교임을 시사한다.

이 구성은 뒤의 결과 해석(“일부 AI가 인간 평균보다 높다” vs “상위권 인간은 AI보다 높다”)에서 ‘평균’과 ‘상위’의 대비를 가능하게 만든다.


3.6 결과 1: 일부 AI 모델은 ‘인간 평균’보다 창의성 점수가 높았다

연구 결과로 먼저 제시되는 내용은, 일부 AI 모델이 인간 참가자들의 평균 점수보다 창의성이 높게 나타났다는 점이다.[^8] @[00:58] 이는 “AI는 창의성이 없다/인간만 창의적이다”라는 직관적 믿음을 정면으로 흔드는 메시지로 기능한다. 즉, 평균적인 인간 집단과 비교하면 AI가 창의성 지표에서 앞설 수 있음을 보여준다.

이 결과를 곧바로 해석해, “AI가 인간의 창의적 글쓰기 능력 등에 상당히 접근해 있다”고 설명한다.[^9] @[01:06] 여기서 “접근”이라는 표현은 완전한 대체나 전면적 우위를 단정하기보다는, 창의성 영역에서도 AI가 빠르게 인간 수준에 근접 중이라는 방향으로 의미를 정리한다.


3.7 결과 2: 그러나 ‘상위 창의성’ 인간은 AI를 앞선다(상위 50% 및 상위 10% 강조)

다음으로 콘텐츠는 중요한 단서를 붙인다. 평균 비교에서는 일부 AI가 앞섰지만, 인간 집단을 창의성 수준별로 나누어 보면 결론이 달라진다는 것이다.

  • 창의성이 상위 50%인 사람들은 평균 점수가 모든 AI보다 높았다[^10] @[01:14]
  • 특히 상위 10% 그룹은 AI보다 창의성이 “크게” 높았다[^10] @[01:14]

즉, 인간의 창의성 분포에서 ‘상위권’으로 갈수록 AI와의 격차가 다시 벌어진다. 이로써 콘텐츠는 “AI가 평균을 넘어설 수는 있지만, 인간의 최상위 창의성(고도의 발상/연상/표현 능력)을 완전히 따라잡았다고 보기는 어렵다”는 방향의 결론을 구성한다.

여기서 중요한 구성은 “상위 50%”와 “상위 10%”라는 구간을 구체적으로 제시했다는 점이다. ‘상위권 인간은 우위’라는 막연한 표현이 아니라, 적어도 절반 이상(상위 50%)에서 AI보다 점수가 높고, 최상위(상위 10%)에서 격차가 특히 크다는 식으로 층위를 나눠 전달한다.[^10] @[01:14]


3.8 추가 관찰: AI 창의성은 ‘온도’와 ‘프롬프트’ 설정에 따라 크게 달라진다

마지막으로 연구팀은 AI 모델의 창의성 점수가 고정된 것이 아니라, 모델의 온도(temperature)와 프롬프트 설정에 따라 크게 달라지는 점을 확인했다고 밝혔다.[^11] @[01:25]

이 말은 두 가지 함의를 가진다.

  1. AI의 창의성 평가가 단순히 “모델 A가 모델 B보다 창의적”처럼 고정 서열로만 결정되기 어렵고, 어떤 조건(프롬프트/샘플링 설정)에서 평가했는지가 결과에 크게 영향을 준다는 점.
  2. 반대로 말하면, 사용자가 AI를 활용할 때도 설정과 질문 방식에 따라 창의적 산출의 수준이 달라질 수 있음을 시사한다. 즉, AI의 창의성은 ‘사용/운용 방식’과 결합된 성격을 가진다는 관찰이다.[^11] @[01:25]

4. 핵심 통찰

  1. “평균적인 인간”과의 비교에서는 AI가 이미 창의성 지표에서 경쟁력(심지어 우위)을 보일 수 있다.
    연구는 일부 AI 모델이 인간 평균보다 높은 창의성 점수를 기록했다고 전하며,[^8] @[00:58] 이는 창의성이 더 이상 인간만의 독점 영역이라고 단정하기 어려움을 보여준다.

  2. 인간의 ‘창의성 우위’는 평균이 아니라 ‘상위권’에서 더 분명해진다.
    인간 상위 50%가 모든 AI보다 점수가 높고, 특히 상위 10%는 격차가 크게 나타났다는 결과는,[^10] @[01:14] “인간의 강점은 고도화된 창의성/탁월성 구간에 있다”는 식의 해석을 가능하게 한다.

  3. AI 창의성은 ‘모델 성능’만이 아니라 ‘설정(온도)·프롬프트’라는 운용 변수에 민감하다.
    같은 모델이라도 어떤 프롬프트를 주고 얼마나 다양성을 허용하는 샘플링(온도)을 쓰는지에 따라 창의성 점수가 크게 달라진다는 관찰은,[^11] @[01:25] AI의 창의성을 평가/활용할 때 조건 통제가 핵심임을 드러낸다.


5. 헷갈리는 용어 정리 (해당 시에만)

  • 생성형 AI / 거대 언어 모델(LLM): GPT-4, Claude, Gemini처럼 텍스트를 생성하는 모델을 지칭한다.[^7] @[00:50]
  • 확산적 사고(divergent thinking): 한 가지 정답에 수렴하기보다 다양한 방향으로 연상과 아이디어를 확장하는 사고 방식으로, 창의성의 핵심 요소로 평가에 사용됐다.[^4] @[00:24]
  • 온도(temperature): 생성 모델이 답변을 생성할 때의 ‘랜덤성/다양성’ 정도를 조절하는 설정을 의미하며(콘텐츠는 정의까지는 직접 설명하지 않지만), 연구진은 이 값과 프롬프트에 따라 창의성 점수가 크게 달라진다고 보고했다.[^11] @[01:25]
  • 프롬프트(prompt): AI에게 과제를 지시하는 입력 문장/조건. 설정 방식에 따라 결과(창의성 점수)가 크게 달라질 수 있다고 언급된다.[^11] @[01:25]


참고(콘텐츠 정보)

  • 콘텐츠: [이런뉴스] 인간의 마지막 무기는 '창의성'? AI와 겨뤘더니 놀라운 결과가…
  • 채널: KBS News
  • 게시일: 2026.01.23
  • 길이: 1분 35초
  • 링크: https://www.youtube.com/watch?v=VWjc60xIhJY

[^1]: “급속도로 발전 중인 AI와 차별되는 인간의 핵심 역량은 창의성…” @[00:01]
[^2]: “AI와 인간의 창의성을 비교한 연구가… 사이언티픽 리포트에 게재” @[00:09]
[^3]: “요수와 벤지오… 참여… 생성형 AI들과 인간 10만 명… 비교” @[00:15]
[^4]: “확산적 사고 능력을 평가… 의미상 거리가 가장 먼 단어 열 개…” @[00:24]
[^5]: “의미상관없어 보이는 단어를 잘 연상할수록… 창의성 점수 높음” @[00:32]
[^6]: “다양한 글 쓰기 작업도…” @[00:40]
[^7]: “AI는… GPT4, 클로드, 제미나이… 인간 10만 명 무작위… 남 50% 여 50%” @[00:50]
[^8]: “일부 AI 모델은 인간… 평균 점수보다 창의성이 높은 것으로” @[00:58]
[^9]: “AI가 인간의 창의적 글쓰기 능력 등에 상당히 접근” @[01:06]
[^10]: “창의성이 상위 50%… 모든 AI 높았고… 상위 10%… 크게 높았다” @[01:14]
[^11]: “온도와 프롬프트 설정에 따라 창의성 점수 크게 달라짐” @[01:25]

← 프로젝트에서 보기