阶跃星辰开源了 视频生成模型 Step-Video-T2V,

和 语音交互大模型 Step-Audio,

Step-Video-T2V 拥有 300 亿参数,可以生成最高 204 帧,约 8 秒的视频。

以下是它的视频生成效果。

Step-Audio 自称是业界首个 集语音理解 和 生成控制一体化的,产品级开源实时对话语言系统,

支持 中英日、方言 多语言对话,和不同的情感。

同时,还支持音频克隆等功能。

以下,是它生成的一些音频。

Step-Video-T2V:https://github.com/stepfun-ai/Step-Video-T2V

Step-Audio:https://github.com/stepfun-ai/Step-Audio

添加新评论