阿里通义发布新一代语音识别大模型Fun-ASR 垂直领域识别

发布时间：2025-08-22 21:18 来源：北方新闻网点击：

8月22日，阿里通义正式推出重磅产品——新一代端到端语音识别大模型Fun-ASR。这款基于大语言模型驱动的人工智能产品凭借突破性的技术创新，在家装、保险等垂直领域的语音识别准确率较以往提升了15%以上，展现出强大的行业适配能力。

Fun-ASR采用自研语音算法和监督微调的Qwen3作为训练基础，创新性地结合前沿模型架构与文本模态对齐技术，显著增强了语言处理效能。该模型集成的RAG方案可实现自动化音频信息检索，支持导入超过1000个自定义热词，这使得系统能够精准识别特定领域的关键术语，大幅提升专业场景下的语义理解准确度。

为解决传统语音识别中的噪声干扰、语种混淆等问题，通义团队在模型训练中引入强化学习(RL)技术，有效抑制了识别过程中的幻觉现象。值得关注的是，Fun-ASR在方言识别方面表现突出，对四川话、粤语、闽南语等方言的识别准确率已领先行业平均水平。

在环境适应性方面，该模型展现出令人惊喜的鲁棒性。无论是会议室的远场拾音，还是工位场景的近场降噪，甚至在超市、户外等复杂声学环境下，都能保持稳定的识别性能。这得益于模型基于上亿小时音频数据的训练积累，覆盖互联网、科技、家装、畜牧、汽车等十余个专业领域。

目前，Fun-ASR已成功应用于会议字幕生成、智能会议纪要、语音助手等多个实用场景。实测数据显示，其在保险行业的识别准确率提升达18%，家装、畜牧等行业也有15%-20%的显著提升。未来，该模型还将登陆阿里云百炼平台，为广大开发者提供更强大的语音识别能力。

此次Fun-ASR的发布，标志着阿里通义在音频技术领域再获突破。结合此前推出的Cosyvoice语音生成模型、MinMo多模态音频模型等产品，通义实验室已构建起覆盖语音识别、合成、生成、理解的全链路音频技术矩阵，为行业数字化转型提供了坚实的技术支撑。

编辑：文墨

下一篇：暂无

今日热评

教育进步

体育强身

视频播报