阿里通义发布新一代语音识别大模型Fun-ASR 垂直领域识别

发布时间:2025-08-22 21:18    来源:北方新闻网    点击:

8月22日,阿里通义正式推出重磅产品——新一代端到端语音识别大模型Fun-ASR。这款基于大语言模型驱动的人工智能产品凭借突破性的技术创新,在家装、保险等垂直领域的语音识别准确率较以往提升了15%以上,展现出强大的行业适配能力。

Fun-ASR采用自研语音算法和监督微调的Qwen3作为训练基础,创新性地结合前沿模型架构与文本模态对齐技术,显著增强了语言处理效能。该模型集成的RAG方案可实现自动化音频信息检索,支持导入超过1000个自定义热词,这使得系统能够精准识别特定领域的关键术语,大幅提升专业场景下的语义理解准确度。

为解决传统语音识别中的噪声干扰、语种混淆等问题,通义团队在模型训练中引入强化学习(RL)技术,有效抑制了识别过程中的幻觉现象。值得关注的是,Fun-ASR在方言识别方面表现突出,对四川话、粤语、闽南语等方言的识别准确率已领先行业平均水平。

在环境适应性方面,该模型展现出令人惊喜的鲁棒性。无论是会议室的远场拾音,还是工位场景的近场降噪,甚至在超市、户外等复杂声学环境下,都能保持稳定的识别性能。这得益于模型基于上亿小时音频数据的训练积累,覆盖互联网、科技、家装、畜牧、汽车等十余个专业领域。

目前,Fun-ASR已成功应用于会议字幕生成、智能会议纪要、语音助手等多个实用场景。实测数据显示,其在保险行业的识别准确率提升达18%,家装、畜牧等行业也有15%-20%的显著提升。未来,该模型还将登陆阿里云百炼平台,为广大开发者提供更强大的语音识别能力。

此次Fun-ASR的发布,标志着阿里通义在音频技术领域再获突破。结合此前推出的Cosyvoice语音生成模型、MinMo多模态音频模型等产品,通义实验室已构建起覆盖语音识别、合成、生成、理解的全链路音频技术矩阵,为行业数字化转型提供了坚实的技术支撑。


编辑:文墨

【返回列表】