AI视频和音频生成模型
阶跃星辰开源了 视频生成模型 Step-Video-T2V,
和 语音交互大模型 Step-Audio,
Step-Video-T2V 拥有 300 亿参数,可以生成最高 204 帧,约 8 秒的视频。
以下是它的视频生成效果。
Step-Audio 自称是业界首个 集语音理解 和 生成控制一体化的,产品级开源实时对话语言系统,
支持 中英日、方言 多语言对话,和不同的情感。
同时,还支持音频克隆等功能。
以下,是它生成的一些音频。
Step-Video-T2V:https://github.com/stepfun-ai/Step-Video-T2V
Step-Audio:https://github.com/stepfun-ai/Step-Audio