AI 讲解播客：从图片生成对话视频

黑客松开发者 & AI 工程师 · Ship It Sunday · AI Hacker House Shanghai · 2025年9月

概述

与队友一起在黑客松中开发的 AI 讲解播客应用，可以从图片和话题生成两位虚拟主持人的对话视频，利用 WAN 2.2、ElevenLabs 和 GPT-4o 做动画与配音。

关键技术

WAN 2.2ElevenLabsGPT-4o

成果

在黑客松中用 6 小时完成项目原型。
使用阿里巴巴 WAN 2.2 视频生成模型，将图片和话题转化为双主持人讲解视频。

故事与流程

这是我在 **2025 年 9 月的 Ship It Sunday 黑客松** 中与队友一起完成的项目。

我们做的是一个 AI 解释类应用：用户给出一张图片或一个话题，系统就会自动生成一个由两位虚拟主持人进行对话讲解的播客视频（AI 解释视频 / AI VIDEO）。

### 产品概念：两位主持人的 AI 播客讲解

- 一键获得由两位评论主持人就任何感兴趣话题展开的播客。
- 通过图片或文字话题，生成一段围绕该主题的对话脚本和讲解视频。
- 特别适合用于**研究总结**和**拆解难懂话题**，把又长又难的内容拆开讲清楚。

这也证明了，两位主持人搭档的形式特别适合帮你总结难懂的话题：

- 可以是老师和学生（teacher–student）、同学之间（peer–peer），
- 也可以是辩论的形式（adversarial debate），
- 针对不同科目和不同难度，选择不同的对话风格。

### 为什么是对话式学习？

- 在学习或者研究的过程中，阅读艰难冗长的材料往往很辛苦：
	- 又长又无聊的研究论文、
	- 很难懂的技术概念等等。
- 事实证明，用对话的方式学习，是让知识记得更牢靠的好方法之一。
- 如果学习过程中配合播客或视频对话，学起来通常会更开心、投入度更高，满意度也会提升。

我们希望用这种两位主持人对话的形式，让复杂话题变得更易理解、更有趣。

### 技术方案与工具

- **WAN 2.2**：用于视频生成和角色动画控制，实现人物动画和口型同步。
- **ElevenLabs**：用于声音克隆和语音合成，让两位主持人拥有自然、稳定的声音人格。
- **GPT-4o**：作为大语言模型，用于理解主题、撰写两位主持人的对话脚本，并把困难问题拆分成更易理解的部分。

整个流程是：从图片或话题出发，由 GPT-4o 生成结构化的双人对话脚本，再通过 ElevenLabs 合成两位主持人的声音，最后用 WAN 2.2 驱动人物动画和口型同步，生成完整的 AI 讲解视频。

← 返回经验