# MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
Video Demo Technical Report Discord Hugging Face X Follow
Read this in [English](./README.md). --- ## 📖 介绍 语音对话系统通常依赖于级联式流水线,将语音先转录、处理,再重新合成,这种设计限制了表达能力,并丢失了副语言信息。**MOSS-Speech** 能够直接理解和生成语音,无需依赖文本中间表示,实现端到端的语音交互,同时保留语调、韵律和情感信息。 我们的方法结合了 **基于模态的层拆分架构** 与 **冻结预训练策略**,在利用预训练文本大型语言模型的推理与知识能力的同时,扩展了原生语音处理能力。实验结果显示,该模型在语音问答任务上取得了最先进的性能,并在语音到语音生成任务中,相较于文本引导系统仍保持竞争力。 欢迎查看我们系统的[演示视频](https://moss-speech.open-moss.com/)。 --- ## 🔑 核心特性 - **真正的语音到语音建模**:无需文本引导。 - **层拆分架构**:在预训练文本 LLM 的基础上整合模态特定层。 - **冻结预训练策略**:保留 LLM 推理能力,同时增强语音理解和生成能力。 - **领先性能**:在语音问答和语音到语音任务中表现出色。 - **表达丰富且高效**:保留流水线中常丢失的副语言信息(如语调、情感、韵律)。 --- ## 📂 仓库内容 - `gradio_demo.py` – 基于 Gradio 的在线演示脚本,用于快速体验语音到语音模型的功能。 - `generation.py` – 核心生成脚本,用于从输入语音生成输出语音,可作为推理和批量处理工具。 --- ## 🛠️ 安装 ```bash # Clone the repository git clone https://github.com/OpenMOSS/MOSS-Speech cd MOSS-Speech # Install dependencies pip install -r requirements.txt ``` --- ## 🚀 使用 ### 启动网页demo ```sh python3 gradio_demo.py ```


--- ## 协议 - 本开源仓库的代码遵循 [Apache 2.0](LICENSE) 协议。 --- ## 致谢 - [Qwen](https://github.com/QwenLM/Qwen3): 我们以Qwen3-8B-Instruct作为基座模型。 - 感谢一位匿名的同事给我们提供声音! --- ## 📜 引用 如果在研究中使用本仓库或模型,请引用如下文献: ```bibtex @article{moss_speech2025, title={MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance}, author={SLM Team}, institution={Shanghai Innovation Institute, Fudan University, MOSI}, year={2025}, note={Official implementation available at https://huggingface.co/fnlp/MOSS-Speech} } or @misc{moss_speech2025, author = {SLM Team}, title = {MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/OpenMOSS/MOSS-Speech}}, } ```