下一代开源数字人基础设施

构建 实时交互 数字生命

基于全链路流式架构,实现 <2s 极低延迟. 支持打断、多模型融合(Wav2Lip/MuseTalk/ER-NeRF),赋能 AIGC 时代的万物交互。

6.8k+
GitHub Stars
<500ms
响应延迟 (WebRTC)
50+
落地企业
livetalking-demo

开始体验

核心技术优势

硬核引擎, 无限可能

专为 AIGC 时代设计的流式交互架构

全双工实时交互

告别“复读机”模式。支持随时打断,模拟真实人类交流节奏。

  • 毫秒级打断 (Interruptibility)
  • 集成 WebRTC (P2P/SRS) 与虚拟摄像头
  • 全网传输延迟 < 500ms

多模型融合引擎

不绑定单一算法,支持按需切换 Wav2Lip, MuseTalk, ER-NeRF 等。

  • Wav2Lip: 高并发首选 (60FPS)
  • MuseTalk: 高精度嘴型生成
  • Ultralight / ER-NeRF: 实时渲染

企业级扩展能力

声音克隆、动作编排、视觉增强,满足商业级应用需求。

  • 5秒声音克隆 (GPT-SoVITS)
  • 全身视频拼接与动作编排
  • 闲时自定义视频 (Idle Video)