https://www.youtube.com/watch?v=VWjc60xIhJY
1. 이건 꼭 알아야 한다
- [? 질문] 급속도로 발전하는 생성형 AI 시대에, 인간이 AI와 창의성에서 여전히 우위에 있다고 말할 수 있는가? 또, “인간의 마지막 무기 = 창의성”이라는 통념은 실제 데이터로 검증되는가?[^1] @[00:01]
- [= 답] 연구 결과에 따르면 일부 최신 AI 모델은 ‘평균적인 인간’보다 창의성 점수가 높게 나왔고, AI의 창의적 글쓰기 능력도 인간 수준에 상당히 접근했다.[^8] @[00:58] 하지만 창의성이 높은 사람들(상위 50%, 특히 상위 10%)은 모든 AI보다 평균 점수가 높아 인간의 ‘상위 창의성’ 구간에서는 뚜렷한 우위가 확인됐다.[^10] @[01:14] 또한 AI의 창의성 점수는 온도(temperature)와 프롬프트 설정에 따라 크게 변동한다는 점이 함께 제시됐다.[^11] @[01:25]
2. 큰 그림
이 콘텐츠는 “AI와 차별되는 인간의 핵심 역량은 창의성”이라는 널리 퍼진 주장에 대해, 실제로 AI와 인간의 창의성을 직접 비교한 대규모 연구 결과를 소개한다.[^1] @[00:01] 연구는 국제학술지 Scientific Reports에 게재됐으며, 생성형 AI(여러 거대언어모델)와 무작위로 구성된 인간 10만 명의 창의성(특히 확산적 사고 및 글쓰기 과제)을 비교했다.[^2] @[00:09]
- 핵심 메시지 1: 평균 비교에서는 AI가 인간을 일부 능가할 수 있다(일부 모델이 인간 평균보다 높은 창의성 점수).[^8] @[00:58]
- 핵심 메시지 2: 그러나 창의성 상위권 인간은 AI를 확실히 앞선다(상위 50%가 AI보다 높고, 상위 10%는 격차가 큼).[^10] @[01:14]
- 핵심 메시지 3: AI의 창의성은 고정된 능력치가 아니라 설정값(온도, 프롬프트)에 크게 좌우된다.[^11] @[01:25]
3. 하나씩 살펴보기
3.1 문제 제기: “인간의 핵심 역량은 창의성”이라는 통념의 검증 필요
콘텐츠는 먼저, AI가 급속도로 발전하는 상황에서 사람들 사이에 “AI와 구별되는 인간의 핵심 역량은 창의성”이라는 말이 자주 나온다고 전제한다.[^1] @[00:01] 즉, 계산/분석/반복 업무에서 AI가 강해질수록 인간이 경쟁력을 가지려면 ‘창의성’이 남는다는 관점이 대중 담론에서 강조되고 있음을 깔고 있다.
이어 이 주장을 실제로 확인할 만한 연구가 등장했음을 알리며, AI와 인간의 창의성을 비교한 연구가 국제학술지 Scientific Reports에 게재됐다고 소개한다.[^2] @[00:09] 이 지점에서 콘텐츠의 목적은 “창의성은 인간만의 것인가?”라는 질문을 비교 실험 결과로 답하려는 데 있다.
3.2 연구의 권위/참여진 소개: ‘AI 대부’ 요수와 벤지오 등이 참여한 공동 연구
연구는 단순한 소규모 실험이 아니라, AI 분야에서 영향력이 큰 인물(‘AI 대부’로 불리는) 요수와 벤지오(캐나다 몬트리올대 교수) 등이 참여한 공동 연구진이 수행한 것으로 제시된다.[^3] @[00:15] 이는 연구의 신뢰도와 학술적 맥락을 강조하는 장치로 기능한다. 즉 “유명 연구자들이 참여했고, 학술지에 실렸다”는 정보로 연구 결과의 무게감을 먼저 전달한다.
또한 연구진이 생성형 AI들과 인간 10만 명의 창의성을 비교했다는 규모가 함께 제시된다.[^3] @[00:15] 여기서 핵심은 ‘10만 명’이라는 표본 수가 단순 인상비평이나 소표본 실험이 아니라 대규모 비교임을 부각한다는 점이다.
3.3 측정 방식 1: 창의성의 핵심 요소로 ‘확산적 사고’를 평가하는 단어 과제
연구팀은 AI 그룹과 인간 그룹의 창의성을 비교하기 위해, 창의성의 핵심 요소로 확산적 사고(divergent thinking) 능력을 평가했다고 설명한다.[^4] @[00:24] 확산적 사고란 정답이 하나로 고정된 문제를 푸는 방식이 아니라, 여러 방향으로 연상을 확장하며 새로운 연결을 만들어내는 능력이라는 맥락에서 창의성과 연결된다.
이를 평가하기 위한 구체 과제로, 참가자(또는 모델)에게 **“의미상 거리가 가장 먼 단어 10개를 나열”**하게 했다고 소개한다.[^4] @[00:24] 즉 서로 관련이 적고 멀어 보이는 개념들을 동시에 떠올리고 제시하는 능력을 측정해 창의성을 점수화한 것이다.
콘텐츠는 이 과제의 평가 논리를 다음처럼 풀어 설명한다.
- “의미상 관련 없어 보이는 단어를 잘 연상할수록”
- “고정관념에 얽매이지 않고”
- “창의성 점수가 높은” 것으로 간주한다.[^5] @[00:32]
즉, 단어 간의 ‘의미 거리’가 멀어질수록(또는 멀게 구성할수록) 발상 전환과 연상 확장이 잘 일어나는 것으로 보고, 이를 창의성으로 채점하는 구조다.
3.4 측정 방식 2: 다양한 글쓰기 과제 수행(창의적 글쓰기 포함)
연구팀은 단어 과제뿐 아니라 **“다양한 글쓰기 작업”**도 수행하게 했다고 소개한다.[^6] @[00:40] 여기서 글쓰기는 단어 나열보다 더 복합적인 창의성—아이디어 생성, 구성, 표현, 맥락화—을 요구한다는 점에서 AI와 인간의 실제적인 창작 역량을 비교하는 실험 축으로 기능한다.
후반부에서 “AI가 인간의 창의적 글쓰기 능력 등에 상당히 접근”했다는 결론이 언급되므로,[^9] @[01:06] 글쓰기 과제는 단지 부가 실험이 아니라 “AI가 창의적 산출에서도 어디까지 왔는가”를 보여주는 핵심 근거로 쓰인다.
3.5 비교 대상(참가자/모델) 구성: 최신 LLM vs 무작위 인간 10만 명(성비 50:50)
AI 참가자로는 최신 거대 언어 모델들이 포함됐다고 구체적으로 열거한다. 예시로 ChatGPT의 GPT-4, Claude, Gemini 등이 참가했다고 말한다.[^7] @[00:50] 즉 비교 대상이 구형 모델이 아니라 ‘최신 모델’이므로, 연구 결과가 “현재 AI의 실력”을 반영한다는 점이 강조된다.
인간 참가자는 **남성 50%, 여성 50%**로 구성된 10만 명의 무작위 인간 그룹으로 제시된다.[^7] @[00:50] 여기서 핵심은 다음 두 가지다.
- 성비를 50:50으로 맞췄다는 언급은 표본 구성의 균형을 강조한다(성별 편향 최소화 의도).
- “무작위”라는 표현을 통해 특정 직업군(예: 작가, 디자이너)만 뽑은 것이 아니라 일반 인구에 가까운 평균적 집단을 상정하는 비교임을 시사한다.
이 구성은 뒤의 결과 해석(“일부 AI가 인간 평균보다 높다” vs “상위권 인간은 AI보다 높다”)에서 ‘평균’과 ‘상위’의 대비를 가능하게 만든다.
3.6 결과 1: 일부 AI 모델은 ‘인간 평균’보다 창의성 점수가 높았다
연구 결과로 먼저 제시되는 내용은, 일부 AI 모델이 인간 참가자들의 평균 점수보다 창의성이 높게 나타났다는 점이다.[^8] @[00:58] 이는 “AI는 창의성이 없다/인간만 창의적이다”라는 직관적 믿음을 정면으로 흔드는 메시지로 기능한다. 즉, 평균적인 인간 집단과 비교하면 AI가 창의성 지표에서 앞설 수 있음을 보여준다.
이 결과를 곧바로 해석해, “AI가 인간의 창의적 글쓰기 능력 등에 상당히 접근해 있다”고 설명한다.[^9] @[01:06] 여기서 “접근”이라는 표현은 완전한 대체나 전면적 우위를 단정하기보다는, 창의성 영역에서도 AI가 빠르게 인간 수준에 근접 중이라는 방향으로 의미를 정리한다.
3.7 결과 2: 그러나 ‘상위 창의성’ 인간은 AI를 앞선다(상위 50% 및 상위 10% 강조)
다음으로 콘텐츠는 중요한 단서를 붙인다. 평균 비교에서는 일부 AI가 앞섰지만, 인간 집단을 창의성 수준별로 나누어 보면 결론이 달라진다는 것이다.
- 창의성이 상위 50%인 사람들은 평균 점수가 모든 AI보다 높았다[^10] @[01:14]
- 특히 상위 10% 그룹은 AI보다 창의성이 “크게” 높았다[^10] @[01:14]
즉, 인간의 창의성 분포에서 ‘상위권’으로 갈수록 AI와의 격차가 다시 벌어진다. 이로써 콘텐츠는 “AI가 평균을 넘어설 수는 있지만, 인간의 최상위 창의성(고도의 발상/연상/표현 능력)을 완전히 따라잡았다고 보기는 어렵다”는 방향의 결론을 구성한다.
여기서 중요한 구성은 “상위 50%”와 “상위 10%”라는 구간을 구체적으로 제시했다는 점이다. ‘상위권 인간은 우위’라는 막연한 표현이 아니라, 적어도 절반 이상(상위 50%)에서 AI보다 점수가 높고, 최상위(상위 10%)에서 격차가 특히 크다는 식으로 층위를 나눠 전달한다.[^10] @[01:14]
3.8 추가 관찰: AI 창의성은 ‘온도’와 ‘프롬프트’ 설정에 따라 크게 달라진다
마지막으로 연구팀은 AI 모델의 창의성 점수가 고정된 것이 아니라, 모델의 온도(temperature)와 프롬프트 설정에 따라 크게 달라지는 점을 확인했다고 밝혔다.[^11] @[01:25]
이 말은 두 가지 함의를 가진다.
- AI의 창의성 평가가 단순히 “모델 A가 모델 B보다 창의적”처럼 고정 서열로만 결정되기 어렵고, 어떤 조건(프롬프트/샘플링 설정)에서 평가했는지가 결과에 크게 영향을 준다는 점.
- 반대로 말하면, 사용자가 AI를 활용할 때도 설정과 질문 방식에 따라 창의적 산출의 수준이 달라질 수 있음을 시사한다. 즉, AI의 창의성은 ‘사용/운용 방식’과 결합된 성격을 가진다는 관찰이다.[^11] @[01:25]
4. 핵심 통찰
-
“평균적인 인간”과의 비교에서는 AI가 이미 창의성 지표에서 경쟁력(심지어 우위)을 보일 수 있다.
연구는 일부 AI 모델이 인간 평균보다 높은 창의성 점수를 기록했다고 전하며,[^8] @[00:58] 이는 창의성이 더 이상 인간만의 독점 영역이라고 단정하기 어려움을 보여준다. -
인간의 ‘창의성 우위’는 평균이 아니라 ‘상위권’에서 더 분명해진다.
인간 상위 50%가 모든 AI보다 점수가 높고, 특히 상위 10%는 격차가 크게 나타났다는 결과는,[^10] @[01:14] “인간의 강점은 고도화된 창의성/탁월성 구간에 있다”는 식의 해석을 가능하게 한다. -
AI 창의성은 ‘모델 성능’만이 아니라 ‘설정(온도)·프롬프트’라는 운용 변수에 민감하다.
같은 모델이라도 어떤 프롬프트를 주고 얼마나 다양성을 허용하는 샘플링(온도)을 쓰는지에 따라 창의성 점수가 크게 달라진다는 관찰은,[^11] @[01:25] AI의 창의성을 평가/활용할 때 조건 통제가 핵심임을 드러낸다.
5. 헷갈리는 용어 정리 (해당 시에만)
- 생성형 AI / 거대 언어 모델(LLM): GPT-4, Claude, Gemini처럼 텍스트를 생성하는 모델을 지칭한다.[^7] @[00:50]
- 확산적 사고(divergent thinking): 한 가지 정답에 수렴하기보다 다양한 방향으로 연상과 아이디어를 확장하는 사고 방식으로, 창의성의 핵심 요소로 평가에 사용됐다.[^4] @[00:24]
- 온도(temperature): 생성 모델이 답변을 생성할 때의 ‘랜덤성/다양성’ 정도를 조절하는 설정을 의미하며(콘텐츠는 정의까지는 직접 설명하지 않지만), 연구진은 이 값과 프롬프트에 따라 창의성 점수가 크게 달라진다고 보고했다.[^11] @[01:25]
- 프롬프트(prompt): AI에게 과제를 지시하는 입력 문장/조건. 설정 방식에 따라 결과(창의성 점수)가 크게 달라질 수 있다고 언급된다.[^11] @[01:25]
참고(콘텐츠 정보)
- 콘텐츠: [이런뉴스] 인간의 마지막 무기는 '창의성'? AI와 겨뤘더니 놀라운 결과가…
- 채널: KBS News
- 게시일: 2026.01.23
- 길이: 1분 35초
- 링크: https://www.youtube.com/watch?v=VWjc60xIhJY
[^1]: “급속도로 발전 중인 AI와 차별되는 인간의 핵심 역량은 창의성…” @[00:01]
[^2]: “AI와 인간의 창의성을 비교한 연구가… 사이언티픽 리포트에 게재” @[00:09]
[^3]: “요수와 벤지오… 참여… 생성형 AI들과 인간 10만 명… 비교” @[00:15]
[^4]: “확산적 사고 능력을 평가… 의미상 거리가 가장 먼 단어 열 개…” @[00:24]
[^5]: “의미상관없어 보이는 단어를 잘 연상할수록… 창의성 점수 높음” @[00:32]
[^6]: “다양한 글 쓰기 작업도…” @[00:40]
[^7]: “AI는… GPT4, 클로드, 제미나이… 인간 10만 명 무작위… 남 50% 여 50%” @[00:50]
[^8]: “일부 AI 모델은 인간… 평균 점수보다 창의성이 높은 것으로” @[00:58]
[^9]: “AI가 인간의 창의적 글쓰기 능력 등에 상당히 접근” @[01:06]
[^10]: “창의성이 상위 50%… 모든 AI 높았고… 상위 10%… 크게 높았다” @[01:14]
[^11]: “온도와 프롬프트 설정에 따라 창의성 점수 크게 달라짐” @[01:25]