EllisShang

案例研究

AI 讲解播客:从图片生成对话视频

黑客松开发者 & AI 工程师 · Ship It Sunday · AI Hacker House Shanghai · 2025年9月

概述

与队友一起在黑客松中开发的 AI 讲解播客应用,可以从图片和话题生成两位虚拟主持人的对话视频,利用 WAN 2.2、ElevenLabs 和 GPT-4o 做动画与配音。

关键技术

WAN 2.2ElevenLabsGPT-4o

成果

  • 在黑客松中用 6 小时完成项目原型。
  • 使用阿里巴巴 WAN 2.2 视频生成模型,将图片和话题转化为双主持人讲解视频。

故事与流程

这是我在 **2025 年 9 月的 Ship It Sunday 黑客松** 中与队友一起完成的项目。

我们做的是一个 AI 解释类应用:用户给出一张图片或一个话题,系统就会自动生成一个由两位虚拟主持人进行对话讲解的播客视频(AI 解释视频 / AI VIDEO)。

### 产品概念:两位主持人的 AI 播客讲解

- 一键获得由两位评论主持人就任何感兴趣话题展开的播客。
- 通过图片或文字话题,生成一段围绕该主题的对话脚本和讲解视频。
- 特别适合用于**研究总结**和**拆解难懂话题**,把又长又难的内容拆开讲清楚。

这也证明了,两位主持人搭档的形式特别适合帮你总结难懂的话题:

- 可以是老师和学生(teacher–student)、同学之间(peer–peer),
- 也可以是辩论的形式(adversarial debate),
- 针对不同科目和不同难度,选择不同的对话风格。

### 为什么是对话式学习?

- 在学习或者研究的过程中,阅读艰难冗长的材料往往很辛苦:
	- 又长又无聊的研究论文、
	- 很难懂的技术概念等等。
- 事实证明,用对话的方式学习,是让知识记得更牢靠的好方法之一。
- 如果学习过程中配合播客或视频对话,学起来通常会更开心、投入度更高,满意度也会提升。

我们希望用这种两位主持人对话的形式,让复杂话题变得更易理解、更有趣。

### 技术方案与工具

- **WAN 2.2**:用于视频生成和角色动画控制,实现人物动画和口型同步。
- **ElevenLabs**:用于声音克隆和语音合成,让两位主持人拥有自然、稳定的声音人格。
- **GPT-4o**:作为大语言模型,用于理解主题、撰写两位主持人的对话脚本,并把困难问题拆分成更易理解的部分。

整个流程是:从图片或话题出发,由 GPT-4o 生成结构化的双人对话脚本,再通过 ElevenLabs 合成两位主持人的声音,最后用 WAN 2.2 驱动人物动画和口型同步,生成完整的 AI 讲解视频。