开云体育(中国)官方网站AI 口吻就彰着病笃起来-开云「中国」kaiyun体育网址登录入口
谷歌气候级居品 NotebookLM开云体育(中国)官方网站,两个本科生自学 3 个月就复刻了?
Nari Labs 刚刚开源的 Dia-1.6B,简略生成对于任何主题的对话,语音音色当然,还会添加口吻、咳嗽声、笑声等。
官方演示提供了与热点语音模子 ElevenLabs 和 SeaSame 的对比,先来感受一下:
Dia-1.6B 模子权重与推理代码全开源,在 GitHub 上不到一天就获取近 5000 标星。

当今 Dia 1.6B 在单张英伟达 RTX A4000 上每秒约可生成 40 个 token,而 86 个 token 苟简是 1 秒的音频本体。
也即是说,在更强的 GPU 或者多卡确立下不错作念到及时生成音频。
官方暗示齐全版模子需要 10GB 显存运转,改日会添加量化版块,以及 CPU 援助。
不外开源社区依然通过优化 torch 编译进一步栽培推理速率和纯粹显存。

淌若莫得算力资源,也不错到 HuggingFace 试玩 Demo,不外很可惜,当今版块不援助汉文。

真正口吻语音生成
使用 Dia-1.6B 相等浅易,用 [ s1 ] [ s2 ] 标签带标两个不同的音色,当今模子为针对任何音色微调,每次齐会立时得到不同的音色。
淌若思保抓特定音色,不错添加音色指示词(教程稍后发布)或固定立时种子。
口吻会自动顺应翰墨本体,如官方演示中一段与着火了联系的对话,AI 口吻就彰着病笃起来。

比拟之下,Eleven Labs 和 Seasame 模子生成的口吻照旧不紧不慢的。
只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等身分,终点是笑声会与。其他模子暂不援助这个功能。

不外当今版块的在线 Demo 也有一些问题,由于最大生成时长相对固定,输入的翰墨越多语速就会越快。
淌若在参数中调整速率因子,会像调整音频播放速率雷同让声息更低千里,没那么当然了。

两位本科生自学 3 个月打造
Nari Lab 首创成员 Toby Kim 与 Jaeyong Sung,来自韩国首尔大学和韩国科学技能院(KAIST),其中还有一东说念主在服兵役兼员职责,扫数这个词形态 0 融资启动,自学 3 个月完成。

Toby Kim 露出形态灵感恰是来自谷歌旧年爆火的 NoteBook LM 自动生成播客对话功能,但他们思要对声息的终了力更强,剧本的解放度更高。
他们尝试了其时市面上扫数的文本转语音 API 后,以为莫得一个听起来像真正的东说念主类对话。
于是他们靠请求免费的谷歌盘考计较 TPU 资源稽查模子,并推选学习初学 TPU 的团队去看 DeepMind 的《How to Scale Your Model》 和 HuggingFace 的《Ultra-Scale Playbook》


改日,他们计较把 Dia 打形成一款齐全欺诈,不错创建兴致的对话、重新组合本体并与好友共享。
在线试玩:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
How to Scale Your Model
https://jax-ml.github.io/scaling-book/
Ultra-Scale Playbook
https://huggingface.co/spaces/nanotron/ultrascale-playbook
参考辘集:
[ 1 ] https://x.com/_doyeob_/status/1914464979266449863
[ 2 ] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/
一键三连「点赞」「转发」「留心心」
接待在批驳区留住你的思法!
— 完 —
� � 点亮星标 � �
科技前沿阐扬逐日见开云体育(中国)官方网站
- 上一篇:开云体育其中临了一篇是由全华东谈主团队完成-开云「中国」kaiyun体育网址登录入口
- 下一篇:没有了
-
开云体育其中临了一篇是由全华东谈主团队完成-开云「中国」kaiyun体育网址登录入口 2026-05-28
-
体育游戏app平台中医药等澳门品牌工业-开云「中国」kaiyun体育网址登录入口 2026-05-26
