• 常用
  • 百度
  • google
  • 站内搜索

AI资讯

Step-Audio – 阶跃星辰开源的语音交互模型

  • 发布时间: 2025-3-14

Step-Audio是什么

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。Step-Audio基于130B参数的统一模型,将语音理解与生成相结合,支持语音识别、对话、语音合成等功能。Step-Audio 的核心优势包括:高效的语音数据生成引擎、支持多种情感和方言的精细语音控制能力,增强的工具调用和角色扮演功能,有效处理复杂任务。在性能方面,Step-Audio 在多个基准测试中表现出色,在指令遵循和复杂语音交互场景中展现显著的领先优势。

Step-Audio的主要功能

语音理解与生成的统一:同时处理语音识别(ASR)、语义理解、对话生成和语音合成(TTS),实现端到端的语音交互。多语言和方言支持:支持多种语言和方言(如粤语、四川话等),满足不同地区用户的需求。情感和风格控制:支持生成带有特定情感(如愤怒、喜悦、悲伤)和风格(如说唱、演唱)的语音。工具调用与角色扮演:支持实时工具调用(如查询天气、获取信息)和角色扮演,提升交互的灵活性和智能化水平。高质量语音合成:基于开源的 Step-Audio-TTS-3B 模型,提供自然流畅的语音输出,支持音色克隆和个性化语音生成。

Step-Audio的技术原理

双码本语音分词器:用语言码本(16.7Hz,1024码本)和语义码本(25Hz,4096码本)对语音进行分词。基于2:3的时间交错方式整合语音特征,提升语音的语义和声学表示能力。130B参数的多模态大模型:基于 Step-1 预训练文本模型,通过音频上下文的持续预训练和后训练,增强模型对语音和文本的理解与生成能力。支持语音和文本的双向交互,实现语音识别、对话管理和语音合成的统一。混合语音合成器:结合流匹配和神经声码器技术,优化实时波形生成。支持高质量的语音输出,同时保留语音的情感和风格特征。实时推理与低延迟交互:采用推测性响应生成机制,用户暂停时提前生成可能的回复,减少交互延迟。基于语音活动检测(VAD)和流式音频分词器,实时处理输入语音,提升交互的流畅性。强化学习与指令跟随:使用人类反馈的强化学习(RLHF)优化模型的对话能力,确保生成的语音更符合人类的指令和语义逻辑。基于指令标签和多轮对话训练,提升模型在复杂场景下的表现。

Step-Audio的项目地址

GitHub仓库:https://github.com/stepfun-ai/Step-AudioHuggingFace模型库:https://huggingface.co/collections/stepfun-ai/step-audio技术论文:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio

Step-Audio的应用场景

智能语音助手:用于智能家居、办公等场景,支持语音交互完成任务。智能客服:提供多语言和方言支持,快速响应用户问题。教育领域:辅助语言学习,支持情感化语音输出。娱乐与游戏:生成个性化语音,增强沉浸感。无障碍技术:帮助视障或语言障碍人群进行语音交互。