https://www.youtube.com/watch?v=kvoOfdMlayk
description: |
1. 이건 꼭 알아야 한다
[? 질문] 이번 주 AI 업계에서 “모델(성능)·에이전트(자동화)·미디어 생성(영상/음악)·오픈소스·기업/조직 변화”의 축으로 어떤 일이 벌어졌고, 각 변화가 사용자·기업·시장에 어떤 함의를 갖는가? @[00:00]
[= 답] 앤트로픽은 CMS 설정 실수로 차세대 상위 모델(‘Mythos’)과 라인업(‘Mythos/Capybara’) 및 보안 리스크 수준의 성능 주장 등이 유출되며 “클로드가 더 강력한 에이전트형 추론 모델로 간다”는 신호를 줬고, 구글은 KV 캐시를 크게 줄이는 TurboQuant로 “로컬/저메모리에서도 긴 컨텍스트·고성능 추론” 가능성을 부각시키며 시장(메모리 반도체 주가)에까지 파장을 만들었다. 한편 OpenAI는 소비자용 영상 앱 ‘Sora’를 리텐션 부진(12개월 유지율 8% 미만) 등 이유로 6개월 만에 종료 수순으로 돌리고, 그 빈자리를 Dreamina의 ‘Seedance 2.0’(캡컷 포함 공개)과 오픈소스 영상/오디오 모델들이 빠르게 메우는 흐름이 전개된다. 동시에 Meta는 뇌 반응 예측 모델(Tribe v2)·SAM 3.1(비디오 처리 효율)·CEO 업무 보조 에이전트 개발 등으로 “AI를 조직 운영의 중심으로” 밀어붙이며, 컨설팅업계(PwC)도 ‘AI 저항 인력 도태’ 수준의 강경 메시지를 내며 산업 전반의 강제 전환 압력이 커지고 있음을 보여준다. 마지막으로 Z.ai의 GLM 5.1이 ‘오퍼스급 코딩 성능 근접·오픈소스 예정’으로 언급되고, 새 벤치마크(ARC AGI3)와 로봇 현장 적용 사례까지 등장해 “모델 성능 경쟁 → 에이전트화 → 실제 세계 적용”이 동시에 가속 중이라는 결론으로 이어진다. @[00:26] @[06:50] @[13:29] @[15:15] @[25:23] @[29:06] @[29:30] @[30:19]
2. 큰 그림
이 콘텐츠는 조코딩 채널의 ‘AI 뉴스’로, 한 주 동안의 굵직한 AI 이슈를 모델 유출/출시, 효율화 알고리즘, 음성·번역, 영상·음악 생성, 오픈소스 도구, 기업 전략/시장 반응, 벤치마크, 로봇 흐름으로 연속 소개한다. @[00:00]
특히 “에이전트(컴퓨터 사용·자동화) 확산”과 “로컬 실행을 가능케 하는 효율화(메모리/VRAM 압박 완화)”가 반복적으로 등장하며, 소비자 앱은 리텐션/PMF로 냉정히 평가돼 선택과 집중이 일어나고 있다는 메시지가 깔린다. @[02:41] @[06:50] @[13:29] @[14:40]
핵심 메시지 3개
- 앤트로픽/구글/메타 등 주요 플레이어가 에이전트형 AI(컴퓨터 조작, 다중 에이전트, 업무 대행)로 경쟁 축을 옮기고 있다. @[02:41] @[11:01] @[26:51]
- TurboQuant, Dynamic VRAM 같은 기술로 **“적은 자원으로 더 큰 모델/긴 컨텍스트”**가 가능해지며 로컬 실행과 비용구조, 심지어 주식시장 기대까지 흔든다. @[06:50] @[07:10] @[19:29]
- Sora 종료 사례가 보여주듯, “기술 데모”가 아니라 리텐션/PMF가 소비자 제품의 생존을 결정하고, 그 공백은 Seedance 2.0·오픈소스 모델들이 빠르게 채운다. @[13:29] @[15:15] @[16:18]
3. 하나씩 살펴보기
3.1 앤트로픽 ‘Claude’ 신모델 유출: Mythos와 Capybara 라인업, 그리고 보안 위협 주장
영상은 “앤트로픽의 클로드에서 새로운 모델이 유출됐다”는 소식으로 시작한다. 유출된 모델 명칭은 **‘Mythos’**이며, 진행자는 ‘고대 그리스어로 이야기/말/전설’ 같은 의미라고 설명하면서 “전설적인 클로드의 새 모델”이라는 뉘앙스를 강조한다. @[00:00] @[00:04]
유출 경위는 기술적 해킹이 아니라 운영 실수에 가깝다. 진행자는 **CMS(콘텐츠 관리 도구)**에서 “전체 공개/일부 공개” 설정을 잘못해 “나가면 안 될 페이지가 공개”됐고, 그 결과 여러 소식이 새어 나왔다고 설명한다. @[00:12] @[00:20]
유출 내용 중 “가장 큰 것”으로는, 해당 모델이 **‘클로드 (이전) 모델보다 가장 강력한 성능’**이라고 주장되었다는 점이 꼽힌다. 진행자는 이를 “새로운 상위 티어 모델”로 표현하며, “오퍼스 다음이 아닐까?”라고 추정한다. 또한 코드명/라인업으로 ‘Mythos’, ‘Capybara’ 두 가지가 등장했다고 언급한다. @[00:26] @[00:32] @[00:35] @[00:38]
성능 특성에 대해 유출 페이지는(영상에서 전달되는 형태로) 다음을 강조한다.
- 기존 Claude Opus보다 훨씬 강력한 추론 능력 @[00:44]
- 여러 번 생각하고 검증하는 구조(반복 사고/검증 루프 같은 형태로 이해됨) @[00:48]
- 코딩 문제 해결·복잡한 작업에서 큰 성능 향상 예상 @[00:51]
- “에이전트 A에 가까운 방향”(에이전트 지향 설계) @[00:56]
이어서 진행자는 특히 눈에 띄는 문구로 **“사이버 시큐리티의 위협이 된다”**는 주장에 주목한다. 이유는 “너무 강력해서 해킹 자동 공격을 해버릴 수 있다”는 것. 다만 진행자는 “과장 마케팅 가능성”을 열어두면서도, 유출 주장 자체는 “제로데이(처음 보는) 취약점을 찾아 뚫어버릴 수 있고, 현재 방어 체계를 능가한다”는 수준이었다고 전달한다. 또한 이는 “AI 위험 및 배포에 대한 사고방식을 재정립할 새로운 유형의 시스템을 미리 보여준다”는 식의 경고/선전 문구로 이어진다고 소개한다. @[00:59] @[01:10] @[01:18] @[01:20] @[01:26]
3.2 앤트로픽 ‘Operon’(오페론) 에이전트: 생물학 연구용 데스크톱 도구 예고
유출/공개 흐름 속에서 앤트로픽이 **생물학 분야 과학 연구를 위해 설계된 ‘클로드 데스크톱용 오페론(Operon) 에이전트’**를 공개한다는 이야기도 나온다. 진행자는 “생물학 관련 전용으로 쓸 수 있는 AI 도구”라고 요약하며, 연구 특화 에이전트 방향성을 짚는다. @[01:26] @[01:38] @[01:41]
3.3 “52일 만에 74개 제품 출시”와 Claude Code의 Auto 모드(안전 강화)
앤트로픽의 출시 속도를 보여주는 수치로 **“52일 만에 74개의 제품 출시”**가 제시된다. 진행자는 “하루에 하나를 넘어섰다”고 반응하며, 이번 주에도 업데이트가 많다고 전제한다. @[01:45] @[01:49]
구체 업데이트 중 하나는 Claude Code의 ‘Auto 모드’ 추가다. 진행자는 기존에도 “dangerously skip 모드(무조건 승인하고 알아서 처리)” 같은 형태가 있었지만, 이번 Auto는 “좀 더 안전한 버전”이라고 말한다. Auto 모드에서는 “알아서 승인을 해주되 클로드가 리뷰를 한다”고 설명한다. @[01:56] @[02:05] @[02:12] @[02:16]
여기서 진행자는 실제 위험 사례를 예로 든다. 에이전트가 알아서 작업하다가 드라이브 삭제, 데이터베이스를 날려버리는 사고가 발생할 수 있는데, 새 Auto 모드는 “리뷰를 통해 한번 막아준다”는 취지라는 것이다. @[02:16] @[02:19]
다만 접근성 제한도 함께 언급된다. 진행자는 “바로 써보려 했는데 일반 모드에선 안 됐다”고 말하며, 현재는 Research Preview로 공개되어 Team Plan/Enterprise/API access에서만 된다고 한다. 이유 추정으로 “토큰을 워낙 많이 먹어서 막아놓지 않았을까”를 든다. 일반 플랜에도 “금방 도입될 것”이라 전망한다. @[02:23] @[02:29] @[02:33] @[02:37]
3.4 “클로드가 your 컴퓨터를 할 수 있다”: 데스크톱/원격 컴퓨터 조작(Computer Use) 확장
진행자는 이제 “오픈 클로우(다른 도구)에서 되던 것들이 웬만하면 클로드에서 그냥 된다”는 맥락으로, 클로드의 컴퓨터 사용(Computer Use) 능력을 소개한다. 요지는 브라우저 내비게이션, 스프레드시트 조작 등 마우스/키보드/화면을 직접 제어하는 방식의 작업 수행이다. @[02:41] @[02:45] @[03:31] @[03:35]
가능한 작업 예시로는:
- PC에 들어가 PPT 추출 → PDF 내보내기 @[02:59]
- PDF를 캘린더에 첨부하는 작업 자동 수행 @[03:01] @[03:05]
- 이미지 일괄 처리: 133개 이미지를 1200×1200 리사이징 + 워터마크를 한 번에 수행하고 저장 @[03:16] @[03:19]
진행자는 “사람이 일일이 하면 어마어마한 노가다”인데, 스마트폰에서 “해줘”라고 하면 컴퓨터에서 알아서 처리한다는 점을 강조한다. @[03:24] @[03:27] @[03:29]
기술적으로는 Claude Code Desktop이나 Co-work(?) 연동, 원래는 가상환경에서 돌리던 것을 “풀어버린 것 같다”는 추정이 나온다. 출시 상태는 macOS 먼저, Windows는 수주 내 지원 예정. 단, “초기 단계라 천천히 동작”한다고 한계도 언급한다. @[03:35] @[03:39] @[03:44] @[03:48]
3.5 iMessage 공식 플러그인: 문자로 클로드와 대화
기존에 디스코드/텔레그램 연결이 가능했던 흐름에서, 이제 iMessage(아이메시지) 클로드 플러그인 공식 지원이 생겼다고 한다. 아이폰 사용자라면 문자로 클로드와 대화할 수 있고, “맥이랑 소통하면서 아이메시지로 대화를 놔둘 수 있다”는 사용 시나리오가 제시된다. @[03:48] @[03:53] @[04:04] @[04:12] @[04:16]
3.6 ‘하네스(harness)’와 디자인 보강: Impeccable 소스(프런트엔드 디자인)
진행자는 “클로드 코드를 잘 쓰려면 스킬/플러그인을 설치해 성능이 좋아진다”는 맥락에서, 클로드가 “디자인을 겁나 못 한다”는 약점을 보완하는 디자인 하네스를 소개한다. 하네스는 단순히 모델만 쓰는 게 아니라, 플러그인/스킬 등을 붙여 운영하는 구조를 의미한다고 설명한다. @[04:16] @[04:21] @[04:27]
여기서 소개되는 것이 Impeccable이라는 소스로, “완벽한 프런트엔드 디자인을 만들어준다”고 한다. 진행자는 프런트엔드 개발 중 디자인이 아쉬운 경우 설치를 권하며, “7개 분야별 전문 지식을 갖춘 종합적인 설계 능력(타이포그래피, 색상 대비, 공간, 모션, 상호작용, 반응형 등)”을 나열한다. 데모 기준으로 이전(예: v4)은 “AI가 만들었네” 느낌이었지만, 이 도구로 더 깔끔하게 만들 수 있다고 설명한다. @[04:27] @[04:36] @[04:39] @[04:44] @[04:49] @[04:55] @[05:00] @[05:08] @[05:12]
3.7 브라우저 실테스트 에이전트 ‘Expect’: Playwright로 패스/페일 리포트
웹 개발에서 “코드단에서는 잘 돌아가는데 브라우저에서 눌러보면 안 되는 경우”를 해결하기 위한 에이전트로 Expect가 소개된다. CLI로 사용하며, 업데이트 후 테스트 계획을 에이전트가 세우고 Playwright 브라우저를 띄워 테스트한 뒤 리포트 작성, Pass/Fail 판정까지 한다고 한다. UI 단 동작 검증 자동화를 겨냥한다. @[05:12] @[05:16] @[05:20] @[05:35] @[05:39] @[05:43]
3.8 ‘Understudy’: 시연으로 배우는 로컬 데스크톱 에이전트(teach/skill.md)
다음으로 Understudy라는 로컬 데스크톱 에이전트가 나온다. 특징은 “사용자가 작업을 한 번 보여주면 의도와 절차를 학습해서 반복 수행”한다는 점이다. 말로 설명하거나 구현하기 애매한 자동화를 “시연 학습”으로 해결하려는 접근이다. 로컬 런타임에서 제어되고, teach 명령으로 시연 녹화 → 의도 기반 학습 → 결과물이 skill.md로 저장되어 재사용된다고 소개된다. 현재는 macOS 중심이라고 덧붙인다. @[05:43] @[05:51] @[05:57] @[06:03] @[06:09] @[06:12] @[06:15] @[06:19]
3.9 구글 리서치 ‘TurboQuant’: KV 캐시 6배 절감, 최대 8배 속도, 정확도 손실 없음 주장
진행자는 구글 리서치에서 TurboQuant를 소개하며, 3월 25일 공개된 자료가 조회수 1872만(매우 큰 화제성)이라고 말한다. 핵심은 LLM의 KV 캐시 메모리를 최소 6배 줄이고, 최대 8배 속도 향상, 정확도 손실은 없다는 “새 압축 알고리즘”이라는 주장이다. 이는 AI 추론/생성에서 메모리 병목을 크게 낮출 수 있다는 의미로 설명된다. @[06:31] @[06:37] @[06:44] @[06:50] @[06:58] @[07:00]
이 소식이 시장에 미친 영향으로, 진행자는 “효율성이 너무 좋아지니까” 삼성·하이닉스·마이크론 등 메모리 기업 주가가 폭락했다고 전한다. 그러나 진행자 본인은 “AI는 지금도 메모리가 부족한데 16 정도 줄었다고 영향이 얼마나 있을까”라며 회의적 시각을 덧붙이고, 전문가들도 비슷한 의견이 있다고 말한다. 동시에 월스트리트가 과민반응하는 패턴(예: 딥시크 이슈 때 ‘엔비디아 망하나’ 폭락)을 예로 들며 이번도 “월가를 붕괴시킨 알고리즘” 같은 자극적 헤드라인이 나왔다고 설명한다. @[07:10] @[07:13] @[07:22] @[07:31] @[07:40]
실제 적용 사례로, Atomic Chat이 TurboQuant를 적용했다며 성능이 좋지 않은 맥북 에어에서도 Qwen 3.5B를 돌려 5만 컨텍스트(2만 단어)를 몇 초 만에 요약했다는 주장/영상이 언급된다. 또 “맥 미니가 데이터센터를 붕괴했다”는 식의 표현과 함께, 9B 모델로 40K 컨텍스트를 로컬에서 압축했다는 이야기로 “낮은 RAM에서도 좋은 모델을 돌리는 세상”이 가까워질 수 있다는 기대를 말한다. 더 깊은 내용은 다른 채널(안될공학 에러 님) 참고를 권한다. @[07:51] @[07:59] @[08:06] @[08:12] @[08:19] @[08:28] @[08:34]
3.10 Gemini 3.1 Flash Live: 저지연 음성 대화 품질 강조 및 즉석 데모
Gemini 3.1 Flash Live 모델이 공개되었고, “지금까지 출시된 오디오/음성 모델 중 최고 품질”을 표방하며 성능이 좋아졌다고 소개된다. 핵심 체감 포인트는 지연(latency)이 거의 없는 실시간 대화다. 진행자는 직접 “안녕”, “조코딩 알아?” 등을 물으며 응답을 확인하고, “슬픈 목소리로 울면서”, “술취한 목소리로 어눌하게” 같은 지시를 하여 스타일 변환 가능성을 시험한다. 이 과정에서 모델이 “왜 슬픈 목소리로 해야 하는지 모르겠다” 등 거부/메타 반응도 보인다. 진행자는 “레이턴시가 굉장히 짧아서 실시간 소통 서비스 만들 때 괜찮겠다”고 정리한다. @[08:40] @[08:46] @[08:52] @[09:08] @[09:10] @[09:17] @[09:19] @[09:31] @[09:35]
3.11 구글 번역 iOS 실시간 번역: 헤드폰을 ‘개인 번역기’로
구글은 “헤드폰이 70개 이상 언어 지원 개인 번역기가 됐다”는 식으로, 구글 번역의 실시간 번역 기능이 iOS에 공식 추가되었다고 한다(기존 안드로이드 중심에서 확대). 사용 방법은 “구글 번역에서 실시간 번역 탭 → 헤드폰 연결하면 끝”이라고 소개되며, 진행자는 “언어를 안 배우고 꽂기만 하면 실시간 번역”이라는 파급을 강조한다. @[09:38] @[09:42] @[09:46] @[09:49] @[10:06] @[10:12]
3.12 오픈웨이트 ‘Gemma 4’ 예고: 2B/4B/120B(MoE, 활성 15B) 라인업
구글의 오픈소스/오픈웨이트 계열인 Gemma 4가 나온다는 소식이 이어진다. 진행자는 “제미나이(클로즈드)와 달리 잼마는 웨이트 다운받아 내 컴퓨터에서 돌리는 모델”이라고 정의한다. 공개된 라인업으로 2B, 4B, 120B가 언급되며, 120B는 MoE 형태로 활성 파라미터가 15B 정도만 동작해 상대적으로 가볍게 돌아갈 수 있다고 설명한다. 현재 “아레나에서 테스트 중”이라며 성능 기대를 말한다. @[10:12] @[10:17] @[10:23] @[10:28] @[10:36] @[10:45] @[10:50]
3.13 구글 내부 ‘Agent Smith’: 인기 폭발로 접근 제한, AI 도입이 평가에 반영
구글 내부에서 쓰는 Agent Smith가 “인기 폭발로 접근을 제한할 정도”라는 기사가 소개된다. 진행자는 이를 “다중 에이전트로 한 번에 작업 처리”하는 형태이며, 클로드/코덱스의 서브 에이전트 기능처럼 하네스를 구축한 내부 툴일 가능성을 추정한다. 또한 내부 툴이 잘 되면 외부 공개(예: 페이스북의 리액트처럼)될 수 있다는 기대를 덧붙인다. @[10:58] @[11:01] @[11:07] @[11:15]
여기에 더해, 순다르 피차이가 “최근 AI 도입 여부를 성과 평가에 반영하겠다”는 맥락이 언급되며, 진행자는 “이제 AI를 안 쓰면 성과에서 마이너스”라는 식으로 조직 문화 변화를 강조한다. @[11:24] @[11:41] @[11:45]
3.14 구글 음악 생성 ‘Lyria 3 Pro’: 최대 3분 생성, 제미나이에서 사용 데모
구글의 음악 생성 AI로 Lyria 3 Pro가 새로 나왔고, 최대 3분 길이 음악 생성이 가능해졌다고 한다. 진행자는 제미나이에서 “사고 모델(프로)”을 쓰면 Lyria 3 Pro가 적용된다는 식으로, “조코딩 테마의 에너제틱한 K-POP 스타일”을 프롬프트로 음악 생성 데모를 보여준다. 결과에 대해 “어색함이 좀 있긴 하지만 괜찮게 나온다”고 평가한다. @[11:45] @[11:49] @[11:55] @[12:02] @[12:05] @[12:25] @[12:26]
3.15 제미나이 ‘이사(Import memory)’ 기능: ChatGPT/Claude에서 데이터 옮기기 프롬프트 제공
경쟁이 치열한 상황에서 제미나이가 “다른 AI 앱에서 제미나이로 전환(이사)” 기능을 출시했다고 한다. 설정 메뉴의 Import memory to Gemini로, ChatGPT나 Claude의 내용을 제미나이로 옮기라고 유도한다. 특히 진행자는 “데이터 빼내오는 프롬프트도 줬다”며, “다른 AI에 그 프롬프트를 넣어 정보 털어서 가져오라는 식(프롬프트 인젝션 같음)”이라고 표현한다. 이렇게 락인으로 못 옮기던 사용자도 이사 가능해진다는 설명이다. @[12:28] @[12:33] @[12:35] @[12:38] @[12:43] @[12:48] @[13:00] @[13:04]
3.16 OpenAI ‘Sora’ 6개월 만에 종료: 디즈니 투자 철회, 리텐션 8% 미만, API/기능도 순차 중단 계획
큰 뉴스로 **“오픈AI 영상 공유 소라가 6개월 만에 종료”**가 소개된다. 진행자는 “쓰는 분들 많았는데 놀랍게도 종료 결정”이라며 충격을 표현한다. 또한 “디즈니 투자를 받기로 했었는데 투자도 철회”되었다고 전한다. @[13:04] @[13:15] @[13:19]
진행자는 종료 이유를 제품 지표 관점에서 해석한다. 소라는 “리텐션이 안 나왔다”고 말하며, 앤드리슨 호로위츠(a16z)의 **‘2025년 소비자 AI 현황 보고서’**를 인용해 12개월 차 유지율(리텐션) 수치를 제시한다.
- ChatGPT: 68%
- Gemini: 57%
- Sora: 8% 미만
진행자는 “이러면 진짜 안 나온 것”, “주요 소비자 앱은 30일 유일이 보통 30% 넘는데 이 정도면 거의 망했다”는 평가를 덧붙인다. @[13:21] @[13:29] @[13:35] @[13:37] @[13:39] @[13:43] @[13:45]
그는 자신의 강의(“조코딩 5조 완성 강의”)에서도 리텐션 커브로 PMF 달성 여부를 본다고 말하며, “소라는 PMF가 달성 안 됐다고 볼 수 있다”고 설명한다. 이어 일반적 기준치로 “20%면 아주 괜찮은 회사, 40%면 유니콘, 70%면 세상을 바꾼다(토스 이승건 대표 발언)”를 언급하고, ChatGPT는 그에 준하는 수준인데 소라는 그렇지 못했다고 대비한다. @[13:49] @[13:53] @[13:56] @[14:00] @[14:04] @[14:07]
종료 범위는 앱만이 아니라 더 넓게 예고된다. 진행자는 “아직 API는 되는데”, 향후 개발자를 위한 API와 ChatGPT의 영상 생성 기능까지 모두 차례로 중단할 계획이라고 전한다. 구체 일정은 미공개지만 “중단한다”고 강조하며, 소라 사용자는 다른 서비스로 옮겨야 할 것이라 말한다. @[14:16] @[14:23] @[14:28]
전략 측면에서는 OpenAI가 “빠르게 변화한 AI 환경 속에서 선택과 집중”을 하며, “영상보다 AI 모델 자체 발전(과학 연구 가속/AGI 방향)”에 집중하고 컴퓨팅 자원을 성능 발전에 몰빵한다는 해석을 덧붙인다. @[14:34] @[14:40] @[14:47]
경쟁사 반응으로는, 제미나이가 “소라 안 되죠? 이제 제미나이에서 만드세요”라는 식의 영상/마케팅을 올렸다고 소개되고, 일론 머스크도 “다음 Grok 이미지 릴리스는 엄청날 것, 두 배로 늘리고 있다”는 발언으로 존재감을 드러낸다. 진행자는 OpenAI가 소라를 포기하는 동안 다른 기업들이 영상 파이를 나눠 먹으려 들어오는 흐름으로 본다. @[14:47] @[14:55] @[15:01] @[15:08] @[15:11]
3.17 Sora 대안 1: Dreamina ‘Seedance 2.0’ 공개(드림 5.0 라이트, 이미지/비디오), 캡컷에도 탑재
“그럼 소라 대안은?” 흐름에서 Seedance 2.0 공개가 이어진다. 진행자는 “드리마(Dreamina)에서 사용 가능”하며, Seedance 2.0 + (C)Dream 5.0 Lite로 영상/이미지 생성이 가능하다고 말한다. 데모를 보며 “소리와 함께 영상 생성”, “멀티모달로 이미지→비디오 생성” 등을 언급하고, 퀄리티를 “디즈니/픽사 만화 한 편이 나온다”는 식으로 매우 높게 평가한다. @[15:11] @[15:15] @[15:18] @[15:24] @[15:30] @[15:39] @[15:45]
진행자는 즉석 생성도 시도한다. 예시로 “프롬프트에서 대상만 칫솔→숟가락으로 바꿔서 써줘”라고 모델에 시키고 생성하며, 결과를 “괜찮게 나오는 것 같다”고 말한다(다만 “패스트 모델”이라 일반 모델이면 더 나을 수도 있다고 덧붙임). @[15:59] @[16:03] @[16:14] @[16:15] @[16:18]
또 중요한 유통 채널로 CapCut(캡컷) 탑재가 언급된다. “한국 포함 전 세계 사용자에게 공개”, 캡컷 앱/데스크톱/웹에서 무료 체험 가능. 캡컷에 가이드가 있고 “가이드 붙여놓고 프롬프트 만들어달라 하면 되겠다”는 활용 팁도 나온다. @[16:18] @[16:21] @[16:23] @[16:26] @[16:32] @[16:36] @[16:39]
3.18 오픈소스 영상 생성: ‘DaVinci … Human’ 15B(61.2GB), 1080p 생성 속도, 한국어 지원
진행자는 오픈소스 영상 생성 모델로 **‘다빈치 … 휴먼(DaVinci … Human)’**을 소개한다(원문 표기가 다소 불명확하나 “휴먼” 명칭과 오픈소스 강조가 반복). 스펙으로:
- 15B(150억) 파라미터 영상 생성 모델 @[16:45] @[16:49]
- 한국어 지원 @[16:49] @[16:51]
- 음성과 동시에 생성되는 영상 생성 AI @[16:51] @[16:55]
- H GPU에서 5초 비디오를 2초에, 1080p 비디오는 38초에 생성한다는 속도 주장 @[16:55] @[16:58]
성능 비교로, 이전 오픈소스 SOTA급이었던 LTX 2.3 대비 60.9% 승률로 더 잘 나온다는 수치가 제시되고, “완전 오픈소스”라고 강조한다. 실제 샘플 영상이 “자연스럽다”는 평가와 함께, 기업 홍보 영상·댄스 영상 같은 결과 예시가 나온다. 다만 모델 용량이 61.2GB라 VRAM 요구가 높아 “약간 빡세다”는 현실적 제약도 말한다. @[17:02] @[17:06] @[17:10] @[17:13] @[17:27] @[17:33] @[17:36] @[17:39] @[17:42]
3.19 LTX 2.3에 ‘ID-LoRA’ 적용(ComfyUI/레오): 특정 인물 얼굴·레퍼런스 음성 반영, 환경음까지
영상 생성 관련 추가 소식으로, 오픈소스 SOTA급 LTX 2.3에 ID-LoRA가 적용되었고 ComfyUI(컴피UI)에도 적용되었다고 한다. ID-LoRA는 특정 인물과 목소리를 반영해 영상 생성이 가능해지는 기술로 설명된다. 절차 예시는:
- **음성 입력 샘플(레퍼런스 음성)**을 넣고 @[18:05] @[18:08]
- 해당 인물의 얼굴 이미지를 넣고
- 생성하면 그 인물의 얼굴 + 레퍼런스 목소리를 반영한 출력이 나온다
게다가 “목소리뿐 아니라 소리(환경음)까지” 종합적으로 나오는 수준이라고 말한다. 진행자는 “놀랍게도 오픈소스”이며 내 컴퓨터에 다운받아 “딸깍딸깍”하면 된다고 강조한다. @[18:00] @[18:03] @[18:16] @[18:20] @[18:28] @[18:38] @[18:41]
3.20 ‘Prism Audio’: 무음 영상에 자연스러운 오디오 입히기, MM-Audio 대비 경량(500M vs 1.03B)·성능 우수 주장
오디오 생성/합성으로 Prism Audio가 등장한다. “오디오가 없는 영상”을 넣으면 “자연스럽게 어울리는 오디오를 입혀준다”는 기능이다. 벤치마크 언급으로 기존에 MM-Audio를 많이 썼을 텐데, Prism Audio는 파라미터가 더 작은 **500M(5억)**이며 MM-Audio는 1.03B(10.3억) 정도인데, Prism가 전반 성능이 더 좋다고 소개된다. @[18:41] @[18:54] @[19:11] @[19:14] @[19:18] @[19:21] @[19:25]
3.21 ComfyUI ‘Dynamic VRAM’: 로컬 영상 생성의 메모리(램/VRAM) 압박 완화
컴피UI 사용자 대상 소식으로 **Dynamic VRAM(동적 VRAM)**이 나왔다고 한다. 진행자는 “요즘 램 구하기 어렵고 가격도 오르고”라는 배경을 깔고, 이 기술이 “램 대란으로부터 로컬 모델을 보호”한다고 표현한다. 도입하면 시스템 RAM 사용량이 감소, 모델이 RAM을 꽉 채워 터지며 오류 나는 상황을 줄이고, 생성 시간도 줄어들 수 있다고 소개한다. 기존에는 언로드된 모델을 페이지 파일에 저장해왔지만 “이제 그럴 필요 없다”는 문구도 인용되며, RAM을 더 효율적으로 쓰게 된다고 설명한다. @[19:25] @[19:29] @[19:32] @[19:35] @[19:40] @[19:44] @[19:48] @[19:51] @[19:55] @[19:59] @[20:03]
3.22 Suno v5.5: 더 풍부한 표현력, ‘내 목소리 반영’ 기능(다만 체감은 실망)
음악 생성 쪽으로 돌아와, Suno에서 v5.5가 나왔고 “더욱 풍부한 표현력”과 “더욱 당신 모습(본인 목소리 반영)”을 내세운다고 한다. 소개 문구로 “당신의 목소리 음색과 취향을 활용해 누가 봐도 당신만의 음악임을 알 수 있게” 만들라는 방향이 제시된다. 진행자는 들어본 뒤, 본인도 ‘add your voice to…’ 기능을 써봤지만 “생각보다 반영이 안 된다”, 직접 녹음해 ‘My Voice’를 넣었는데 결과가 “아예 안 닮게 나온 것 같아… 실망할 수 있다”고 평가한다. @[20:12] @[20:15] @[20:20] @[20:22] @[20:25] @[20:47] @[20:50] @[20:52] @[20:56] @[21:10]
3.23 ‘Matrix Game 3.0’: 월드 모델(실시간 탐험), 28B MoE, 64GB 메모리/VRAM 요구
월드 모델 계열로 Matrix Game 3.0이 소개된다. 진행자는 구글의 월드모델(GENIE 3) 사례를 언급하며, 단순 영상 생성이 아니라 “영상을 돌아다니며 상호작용”하는 모델이 공개된 바 있고, Matrix Game 3.0은 이런 계열의 오픈소스 모델이라고 말한다. 요구 사양으로 VRAM 56GB 정도(언급) 혹은 메모리 64GB 필요(표기) 같은 고사양이 제시된다. “월드를 만들고 탐험”하며, 즉석에서 돌아다닐 수 있는 게임을 만든다는 개념이며, 720p 실시간 장편 비디오 생성, 28B MoE 모델 등의 스펙이 언급된다. 예시로 WASD 이동, 증류 모델도 있다는 설명이 따라붙는다. @[21:10] @[21:16] @[21:21] @[21:29] @[21:33] @[21:37] @[21:41] @[21:45] @[21:50]
3.24 Cohere ‘Transcribe’: 오픈소스 SOTA 음성→텍스트(2B, 14개 언어, Apache 2.0), 위스퍼 대비 오류율 언급
코히어(Cohere)가 Transcribe 모델을 공개했는데 “소타(최첨단) 성능”이며 오픈소스로 풀렸다고 한다. “내 컴퓨터에 다운받아 바로 쓸 수 있고, 음질 나쁜 오디오에서도 놀라울 정도로 잘 작동”한다는 설명이 나온다. 스펙:
- 2B(20억) 모델
- 14개 언어 학습, 그 안에 한국어 포함
- Apache 2.0 라이선스
데모에서는 “뭐라는지 모르겠는데 자막이 오디오로부터 나왔다”는 식으로 전사 품질을 강조한다. 자막 제작자에게 유용할 수 있다고 권한다. 또한 비교 지표로 OpenAI Whisper의 에러(7.44) 언급, 그리고 ElevenLabs Scribe 같은 유료 대비도 “괜찮다”는 뉘앙스를 준다. @[21:50] @[21:54] @[21:59] @[22:03] @[22:05] @[22:07] @[22:17] @[22:19] @[22:24] @[22:26] @[22:28] @[22:38] @[22:41] @[22:47]
3.25 Mistral ‘Voxtral’ TTS: 오픈웨이트·초고속·자연스러운 영어 음성(한국어는 약함)
프랑스 기업 미스트랄 AI가 Voxtral TTS를 공개했다고 한다. 이것도 오픈웨이트로 “다운받아 직접 돌릴 수 있는 모델”이며 “자연스러운 음성, 울트라패스트 TTS”를 내세운다. 데모에서는 갑자기 언어를 바꿔도 자연스럽게 말하는 모습을 보여주며, 진행자는 “일레븐랩스(보이스 분야 강자)를 뛰어넘어 버렸다”는 식으로 경쟁 구도를 말한다. 보이스 복제 비교도 하며 “2번 보이가 더 낫다”, “I property를 누르면 이게 Voxtral”이라는 식으로 데모 흐름을 소개한다.
다만 한국어 테스트에서는 “안녕하세요 조코딩입니다”를 시도했지만 “안타깝게도 한글은 잘 안 되는 것 같다”고 결론 내리고, 영어에 활용하면 좋겠다고 말한다. @[22:47] @[22:52] @[22:56] @[23:16] @[23:18] @[23:21] @[23:31] @[23:33] @[23:42] @[23:44] @[23:46] @[23:50] @[23:56] @[23:58] @[24:01]
3.26 VTuber 제작 자동화: ‘Image to Live2D’(단일 이미지→레이어 분리) 오픈소스 예고
버튜버 제작에는 노력이 많이 드는데, **‘Image to Live2D’**라는 연구/오픈소스가 곧 나온다고 소개한다. 애니메이션 캐릭터 이미지 한 장을 넣으면 자동으로 레이어 분리가 되어, 결과적으로 “한 장만 넣으면 버튜버로 만들어버릴 수 있다”는 가능성을 말한다. @[24:01] @[24:05] @[24:08] @[24:13] @[24:15] @[24:17] @[24:21]
3.27 ChatGPT 광고: 6주 만에 매출 1억 달러(약 1,500억 원) 돌파, 600+ 광고주(80% 중소기업)
OpenAI가 ChatGPT에 광고를 도입한 뒤, 6주 만에 매출 1억 달러(약 1,500억 원) 돌파했다는 소식이 나온다. 미국에서 광고 파일럿을 출시했고, ChatGPT 안에서 제품이 뜨는 형태로 광고를 넣는다고 설명한다. 진행자는 광고가 “생각보다 잘 될 수도” 있다고 보고, 과거 앤트로픽이 슈퍼볼 광고 등에서 “우리는 광고 안 한다”며 광고 모델을 비판한 것을 언급하면서, “앤트로픽이 후회할 수도—광고로 돈 꽤 벌 수 있다”는 개인 의견을 덧붙인다. @[24:21] @[24:24] @[24:29] @[24:33] @[24:38] @[24:47] @[24:50] @[24:57]
추가로, 광고는 미국 내 무료 사용자/저가 요금제 사용자 대상으로 진행 중이며, 광고주 참여가 빠르게 늘고 있다. 600개 이상 광고주, 80%는 중소기업. OpenAI는 4월에 광고주가 직접 캠페인을 운영하는 플랫폼(구글 애즈/메타 광고처럼)을 도입한다고 한다. @[25:01] @[25:05] @[25:09] @[25:12] @[25:16] @[25:20] @[25:23]
3.28 Meta ‘Tribe v2’: 영상 자극에 대한 뇌 반응 예측/시뮬레이션
메타가 Tribe v2라는 “뇌 모델”을 공개했는데, 영상을 보여주면 뇌가 어떻게 반응하는지 시뮬레이션으로 예측할 수 있다고 한다. 음악과 영상을 들려주면 AI가 “뇌가 이런 식으로 반응할 것”을 예측하고, 실제 사람에게 보여줬을 때 반응과 거의 비슷하게 나온다는 식의 데모가 소개된다(“Actual response”와 비교). @[25:23] @[25:27] @[25:33] @[25:40] @[25:47] @[25:54] @[26:01]
진행자는 이 기술의 응용/우려를 제시한다. 광고 영상을 만든 뒤 뇌 반응을 미리 시뮬레이션해 최적화된 광고를 만들 수 있고, 쇼츠 같은 콘텐츠도 중독성/시청 지속시간을 극대화하도록 “뇌가 많이 반응하는 영상”을 AI로 만들어낼 수 있어, “모든 영상이 뇌를 완전히 중독시키는” 방향으로 갈 수 있다는 전망(경고)을 덧붙인다. @[26:01] @[26:09] @[26:12] @[26:19]
3.29 Meta SAM 3.1: 멀티 객체·비디오 효율 향상, 실시간 트래킹 가능성
메타의 유명한 세그멘테이션 모델 **SAM(Segment Anything Model)**의 다음 버전으로 SAM 3.1이 소개된다. “객체 다중화 기능”을 통해 정확도를 희생하지 않고 비디오 처리 효율성을 크게 향상했다고 하며, 영상에서 강아지/고양이 같은 대상을 지정해 실시간 트래킹할 수 있는 방향을 시사한다. 체크포인트가 공개되어 오픈소스로 다운받아 쓸 수 있다고 한다. @[26:19] @[26:29] @[26:30] @[26:32] @[26:36] @[26:40] @[26:44] @[26:47]
3.30 저커버그의 CEO 업무 지원 AI 에이전트: 메타를 AI 중심 조직으로
기사로 “마크 저커버그 CEO 업무 지원 AI 에이전트 개발 중”이 언급된다. 진행자는 “CEO의 업무도 AI가 대신”하는 시대라며, 저커버그가 자신의 CEO 업무를 돕는 개인 AI 에이전트를 직접 만들고, 메타 전체를 AI 중심 조직으로 바꾸고 있다고 설명한다. “AI 네이티브로 바꾸겠다”, “다들 AI를 안 하면 안 되는 시대”라는 톤으로 정리한다. @[26:47] @[26:51] @[26:55] @[27:04] @[27:10] @[27:12] @[27:14] @[27:18]
3.31 PwC의 강경 메시지: “AI 저항 직원은 자격 없다”, 비즈니스 모델 전면 재편
PwC 관련 발언/보도도 이어진다. 진행자는 PwC를 “전 세계 151개국, 36만4천여 명 전문가가 활동하는 세계 1위 글로벌 회계 컨설팅 펌”으로 소개하며, 이 조직이 “AI에 저항하는 직원은 회사에 있을 자격이 없어”라는 수준의 강한 메시지를 냈다고 전달한다. 또한 “AI 시대 대응 위해 조직과 비즈니스 모델 전면 재편”, “AI 도입 소극적 인력은 도태”, “AI를 중심에 두지 않는 인력은 오래 남기 어렵다”, “AI 도입을 선택 사항으로 여긴 사람은 설 자리가 없다”는 문장들이 연속으로 제시된다. 진행자는 이를 통해 “AI를 도입할 수밖에 없는 세상”이라고 결론 내린다. @[27:24] @[27:29] @[27:34] @[27:39] @[27:44] @[27:52] @[27:53]
3.32 조코딩의 사업 공지: ‘조코딩 AX 파트너스’ 설립(기업 AX 컨설팅/교육)
진행자는 흐름을 이어 “최근 회사를 세웠다”며 자신의 사업을 홍보한다. “모든 회사가 AI 회사가 돼야” 하므로 기업의 **AX(AI 전환)**를 돕는 **‘조코딩 AX 파트너스’**를 설립했다고 말한다. 프라이머(권도균 대표)로부터 투자를 받았다는 내용도 포함된다.
제공 서비스로는 기업의 AX 고민 상담, AI 도입 방법, 직원 AI 역량 강화, 컨설팅 및 직접 투입, AI 교육, 업무 적용 프로그램 설계 등을 언급한다. 연락처로 [email protected]와 웹사이트 jocodingax.ai를 안내한다. @[27:56] @[27:58] @[28:03] @[28:08] @[28:15] @[28:19] @[28:23] @[28:29] @[28:32] @[28:40] @[28:41] @[28:43]
3.33 RockMax Publishing: 앱스토어 페이지를 통째로 채워주는 에이전트(아이콘/스크린샷/설명/리젝션 방지)
RockMax Publishing이 공개되었는데, “사용자가 직접 수정하지 않아도 앱스토어 페이지 전체를 채울 수 있는 AI 에이전트”라고 소개된다. 앱 출시 시 필요한 아이콘, 스크린샷, 설명 작성, 그리고 **리젝션(거부) 방지(Preventing rejection)**까지 도와 “바로 출시”되게 한다는 포지션이다. @[28:45] @[28:48] @[28:52] @[28:55] @[28:59] @[29:02] @[29:06]
3.34 GLM 5.1(Z.ai): 코딩 성능이 ‘Claude Opus 4.6’에 근접, 오픈소스 예정
GLM 5.1이 공개되었고, Z.ai가 만든 모델이라고 한다. 진행자는 특히 **코딩 성능이 놀랍게도 Claude Opus 4.6에 “거의 근접”**한다고 말한다. 그리고 이 모델이 곧 오픈소스로 공개될 예정이라며, “오퍼스급 코딩 성능이 오픈소스로 나올 수 있다”는 의미를 부여한다. @[29:06] @[29:09] @[29:12] @[29:18] @[29:20] @[29:22] @[29:24]
3.35 새 벤치마크 ARC AGI3: 인간은 쉽고 AI는 어려운 퍼즐, “유일하게 포화되지 않은” 에이전트 지능 벤치마크 주장
모델 성능이 계속 좋아지며 기존 벤치마크가 포화되는 상황에서 ARC AGI3라는 새 벤치마크가 나왔다고 한다. 진행자는 이를 “인간은 풀기 쉬운데 AI는 풀기 어려운 퍼즐 문제”로 설명한다. 또한 “세계에서 유일하게 포화되지 않은 에이전트 지능 벤치마크”라고 소개하며, 최근엔 모델들이 휴머니티/레…(기존 벤치마크들)에서 50점을 넘어가니 새 기준이 필요해졌다는 배경을 든다. 성적 분포는 “휴먼은 높고 AI는 낮다”, “거의 빵점대”라는 식으로 묘사된다. 진행자는 “SOTA AI도 이런 걸 정복해야 인간에 가까워졌다”고 볼 수 있다고 말한다. @[29:24] @[29:30] @[29:34] @[29:38] @[29:42] @[29:46] @[29:50] @[29:54] @[30:00] @[30:03]
3.36 에이전틱 프레임워크 적용 시 성과 급상승: 0% → 36%(3일 만)
흥미로운 반전으로, “불과 3일 정도 만에 0%에서” 어떤 에이전틱(Agentic) 프레임워크를 적용하자 36% 성과를 달성했다는 사례가 언급된다. 최신 모델들도 헤매는 벤치마크에서 “에이전틱한 오퍼스 같은 걸 적용”하니 SOTA가 36%를 찍었다는 요지로, 단일 모델 성능만이 아니라 **에이전트화(계획/도구/반복)**가 성과를 크게 끌어올릴 수 있다는 메시지로 연결된다. @[30:05] @[30:10] @[30:12] @[30:16]
3.37 로봇: 유니트리 병원 활용(휠체어/침대/서랍) + 어헤드 폼 휴머노이드 데모(자연스러운 움직임/깜빡임)
마지막으로 로봇 소식이 간단히 이어진다.
- 유니트리(Unitree) 로봇이 병원에서 활용: 휠체어를 가져오고, 침대를 돌려 기울기 조절, 서랍을 열어 물건을 가져오는 등 실제 작업 수행 사례가 소개된다. “실제적으로 활용되면 유용”하다고 말한다. @[30:19] @[30:22] @[30:25] @[30:28] @[30:33]
- 로봇 기업 **어헤드 폼(Ahead …)**의 휴머노이드 데모: 공식 홍보 영상에서 움직임과 특히 “깜빡임”이 매우 자연스럽고, 옷을 입혀놓으니 “사람 움직임 같다”고 평가한다. @[30:33] @[30:36] @[30:39] @[30:44] @[30:46] @[30:49]
영상은 좋아요 요청과 함께 마무리된다. @[30:49] @[30:53]
4. 핵심 통찰
-
에이전트화는 ‘기능 추가’가 아니라 제품/조직의 운영방식 변화다: 클로드의 컴퓨터 조작, 브라우저 테스트 Expect, 시연 학습 Understudy, 구글 내부 Agent Smith, 저커버그 개인 에이전트까지 모두 “사람의 작업 단위”를 통째로 가져가려 한다. 이는 단순 챗봇보다 업무 대체/자동화의 임팩트가 크다. @[02:41] @[05:20] @[05:43] @[11:01] @[26:51]
-
효율화(메모리·속도)는 로컬 실행을 현실로 끌어당기며 시장 심리를 흔든다: TurboQuant가 KV 캐시를 6배 줄이고 최대 8배 빠르다고 주장되자, “메모리 수요 감소” 서사가 퍼지며 반도체 주가가 출렁였다는 이야기가 나온다. 동시에 실제 사용 사례(맥북 에어에서 긴 컨텍스트 요약)와 ComfyUI의 Dynamic VRAM 등은 “개인이 더 적은 자원으로 더 큰 일을 한다”는 흐름을 강화한다. @[06:50] @[07:10] @[07:59] @[19:29]
-
소비자 앱은 기술력보다 ‘리텐션/PMF’가 생존을 좌우한다: Sora는 ‘OpenAI가 만든 영상 앱’이어도 12개월 리텐션 8% 미만으로 평가되며 종료 수순에 들어간다. 반면 ChatGPT·Gemini의 유지율 수치가 같이 제시되며, 사용자 습관화/재방문이 제품의 운명을 결정한다는 교훈을 준다. @[13:29] @[13:37] @[13:43]
-
영상/오디오 생성은 폐쇄형 앱이 흔들리는 사이 오픈소스·툴체인이 빠르게 치고 올라온다: Seedance 2.0의 대중 유통(캡컷)과, 15B 오픈소스 영상 모델, ID-LoRA(인물/목소리 반영), Prism Audio(무음→오디오) 같은 조합은 ‘스튜디오급 파이프라인’이 개인 PC로 내려오는 방향을 보여준다. @[15:15] @[16:21] @[18:03] @[18:54]
-
조직 차원의 ‘AI 강제 도입’ 압력은 더 노골적으로 변한다: 피차이의 성과평가 반영 언급, PwC의 강경 발언은 “AI는 옵션이 아니다”라는 신호로, 개인 역량뿐 아니라 기업 구조 재편(AX) 수요를 키운다. 진행자 자신의 AX 회사 설립 공지도 이 흐름에 올라탄 사례로 배치된다. @[11:41] @[27:29] @[27:56]
5. 헷갈리는 용어 정리 (해당 시에만)
- CMS(콘텐츠 관리 도구): 웹페이지/블로그 등의 공개 범위(전체/부분)를 관리하는 도구로, 설정 실수로 비공개 페이지가 공개되며 유출이 발생할 수 있다고 설명된다. @[00:12]
- KV 캐시(Key-Value Cache): LLM이 긴 컨텍스트를 처리할 때 내부적으로 저장하는 메모리로, TurboQuant가 이를 크게 줄여 효율을 개선한다고 소개된다. @[06:50]
- MoE(Mixture of Experts): 큰 모델이 항상 전체 파라미터를 쓰지 않고 일부 “전문가”만 활성화해 계산량을 줄이는 구조로, Gemma 4의 120B 모델이 활성 파라미터 15B 형태라고 설명된다. @[10:23] @[10:36]
- 리텐션(유지율): 일정 기간 후에도 사용자가 다시 돌아오는 비율로, PMF 판단에 핵심 지표이며 Sora 종료 해석의 핵심 근거로 제시된다. @[13:29] @[14:00]
- 하네스(harness): 모델 단독이 아니라 플러그인/스킬 등을 결합해 성능과 기능을 강화해 쓰는 운영 방식/구성으로 설명된다. @[04:27]
참고(콘텐츠 정보)
- 제목: AI뉴스 - 클로드 Mythos 유출, TurboQuant, Sora 종료, Seedance 2.0 출시, Meta 뇌 읽는 AI, GLM 5.1 등
- 채널: 조코딩 JoCoding
- 길이: 31분 6초
- 링크: https://www.youtube.com/watch?v=kvoOfdMlayk