OpenHub 发布的文章

阿 B 开源的声音模型 IndexTTS 最近发布了更新,

它支持语音合成,和只用几秒的声音样本,完成音色克隆,

新版本优化了语音生成质量,可以自动纠正汉字的发音错误,可以自己设置语音停顿,

且只需要 8G 左右的显存。

下边是它的一些声音合成演示:

字节最近也更新了一款声音模型 MegaTTS 3,

同样支持小样本完成声音克隆,支持长文本语音合成、中英文混合输出。

IndexTTS:https://github.com/index-tts/index-tts

这是一个开源的 Python 库,

它的作用是,可以让你给其它的库导入时间征收关税。

举一个简单的例子:

本来 pandas 导入时间可以只需要 1 秒,

但是当你收取 225% 的关税之后,它就需要 2.25 秒时间导入。

这个项目的最终目标是:MAKE IMPORTING GREAT AGAIN。

国外的 Python 包偷了太多的 CPU 周期,

所以,是时候用 tariff 让包的进出口变得公平了。

MIGA!!!

Python 关税:https://github.com/hxu296/tariff

这是一个可以让你使用自己的微信数据,给自己训练一个 AI 模型分身的项目。

它会教你如何导出微信数据、如何进行预处理、如何训练微调、如何使用训练出的模型部署一个聊天机器人,

甚至,还可以用它进行语音消息的克隆,

不过,这种项目一般对动手能力和耐心的要求比较强,喜欢折腾可以试一下。

WeClone:https://github.com/xming521/WeClone

Quick Look 是 Mac 系统上的一个功能,

它可以让你在文件管理器中,不需要打开第三方软件,就能预览文件内容。

QuickLook 这个项目,就是采用了苹果 Quick Look 的设计理念,

安装之后,在文件管理器中,点一下文件,然后按下空格,你就可以对它进行预览,

松开空格,预览窗口会马上消失,非常顺手和方便。

QuickLook快速预览:https://github.com/QL-Win/QuickLook

这是一个完全开源的浏览器翻译扩展,

把它安装在浏览器上之后,碰到网页上看不懂的外语内容,按下快捷键,就能一键翻译。

它支持 20 多种语言,可以使用机器翻译,也可以自己接入各种 AI 大模型,

可以自己定制翻译的模式和样式。

由于是开源项目,所以它会把所有数据都保存在本地,隐私方面要比商业项目更好一些。

FluentRead流畅阅读:https://github.com/Bistutu/FluentRead

这是一个基于 AI 的视频翻译工具,

你可以通过它 下载、或者自己上传视频,

KrillinAI 会自动调用 Whisper 完成语音识别,自动调用大模型翻译成指定的语言,

调用 CosyVoice 根据翻译后的文案,生成音色一致的声音,

并按照你的要求,自动剪辑成适合不同平台的竖屏或横屏视频。

KrillinAI视频翻译:https://github.com/krillinai/KrillinAI