基于开源鸿蒙的语音识别及语音合成应用开发样例

OpenAtom OpenHarmony 2025-08-25 3754

描述

【拆·应用】是为开源鸿蒙应用开发者打造的技术分享平台，是汇聚开发者的技术洞见与实践经验、提供开发心得与创新成果的展示窗口。诚邀您踊跃发声，期待您的真知灼见与技术火花！

引言

本期内容由AI Model SIG提供，介绍了在开源鸿蒙中，利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。

ASR/TTS介绍

ASR也就是自动语音识别（Automatic Speech Recognition），其主要作用是把人类语音里的词汇内容转变为计算机能够读取的文本形式。

TTS也就是文本转语音（Text-to-Speech），它主要的功能是把计算机里以文本形式存在的信息转变成人耳可听见的语音。

ASR/TTS有着广泛的用途，例如语音助手聊天、设备控制、新闻播报、有声阅读等。

Sherpa_onnx介绍

sherpa-onnx是一个开源语音处理工具包，具有轻量级、跨平台和高性能的语音识别推理能力。它基于ONNX Runtime，支持CPU/GPU加速，且内存占用低、延迟小，适合实时流式语音处理。它兼容多种端到端语音模型（如Transformer、RNN-T），提供简洁的C++/Python API，并支持动态断句和流式识别，开箱即用。相比传统方案（如Kaldi），sherpa_onnx依赖更少、部署更简单，特别适合移动端、离线语音助手、实时字幕等场景兼顾效率与易用性。

sherpa_onnx已经移植到开源鸿蒙，直接支持ArkTS接口，本示例用到的接口如下：

开发准备

1.环境搭建：确保安装了ArkUI开发所需的IDE，如DevEco Studio，并配置好相应的开发环境，包括SDK（本示例Api11及以上）版本等。

2.了解ArkUI框架特性：熟悉ArkUI的布局和组件使用方法，例如文本输入框用于接收用户输入，按钮组件用于触发ASR语音识别操作等。还要了解ArkUI的数据绑定机制，方便将ASR识别结果和TTS合成状态等信息实时显示在界面上。

示例界面设计

底部栏：语音采集与文本输入切换按钮，点击切换。

中间区：文本显示区，呈现识别后文本和输入内容。

头部栏：标题、语音播放按钮（播放中间区域文本）、设置按钮（语速设置和声音模型切换）。

示例功能逻辑

示例基于sherpa_onnx三方库开发，此库在OpenHarmony三方库中心仓下载安装，链接如下：

https://ohpm.openharmony.cn/#/cn/detail/sherpa_onnx

以下所展示的是本示例的流程图，该流程图涵盖了从Vad声音活动检测的初始化阶段，音频采集器与渲染器初始化过程，接着是ASR（自动语音识别）模型和TTS（文本到语音）模型的加载，直至最终成功实现语音识别与语音生成的流程。

ASR模型解析核心实现

1.初始化Vad

Vad声音活动检测（Voice activity detection），也称为语音活动检测或语音检测（speech activity detection或者speech detection），是检测人类语音存在与否的技术，主要用于语音处理。Vad的主要用途在于说话人分割（speaker diarization）、语音编码（speech coding）和语音识别（speech recognition），初始化vad过程如下：