乐鑫专题系列之--ESP-Skainet库【2】

穹顶之下2018 · 发表于 2025-12-17 19:00:59

源码链接与简介
https://github.com/espressif/esp-skainet/tree/master
https://github.com/espressif/esp-skainet/blob/master/README_cn.md

摘录关键信息如下：
ESP-Skainet 是乐鑫推出的智能语音助手，目前支持 唤醒词识别 和 语音命令词识别。
官方推荐使用 ESP32-S3 运行语音命令词识别【支持 AI 指令和高速八线 OSPI PSRAM--即有大内存，目前的乐鑫模组ESP32S3-N16R8 PSRAM最大是8MB】。最新模型优先在这种性能高的RF MCU上部署【存储大，性能强】。
关于PSRAM，参见笔者本文： https://forum.anfulai.cn/forum.php?mod=viewthread&tid=130251&highlight=psram

该官方库实现了基于乐鑫 ESP32 系列芯片的唤醒词识别和语音命令词识别功能。核心功能实现如下图：

从左到右介绍如下：
输入
      输入音频源是MIC或存储芯片flash/sd里的wav/pcm音频文件。
原始音频数据预处理
   声学前端（AFE）算法集成了回声消除（AEC）、自动增益控制(AGC)、噪声抑制（NS）、语音活动检测（VAD）、盲源分离（BSS）等算法
      乐鑫双麦克风声学前端（AFE）已通过 Amazon Alexa Built-in 设备的软件音频前端解决方案认证。

      这里给出st的音频库链接，当然，里面的算法也都是lib库（st买的，不开源正常）
   https://www.st.com/en/embedded-software/x-cube-audio.html

算法处理
      唤醒词识别模型 WakeNet 提供了高性能、低资源消耗的唤醒词检测算法，使设备能够持续等待如“Alexa”、“天猫精灵”、“小爱同学”等唤醒词
      命令词识别模型 MultiNet 专为提供灵活的离线语音命令词识别而设计。用户可根据需求自定义语音命令，无需重新训练模型。目前 MultiNet 支持最多 200 个中英文命令词，如“打开空调”、“打开卧室灯”或 "Turn on the light" 等。
      tts文本转语音播放，当前支持中文和英文的语音输出。直接给你把 xfs5152  syn6658 等几十块一颗的 tts芯片给省了。
结果输出
      控制灯，空调，输出音频等用途。

自己动手玩
      准备一块带音频芯片的 ESP32 或 ESP32-S3 开发板就行，可以输入声音【mic/音频文件】，输出声音【喇叭】。官方有很多板。
      当前包括以下demo:
         cn_speech_commands_recognition 使用 MultiNet7 模型
         en_speech_commands_recognition 使用 MultiNet7 模型
         wake_word_detection 使用 WakeNet9 模型
         chinese_tts 使用 esp-tts-v1.7
         usb_mic_recorder

      下载代码 git clone https://github.com/espressif/esp-skainet.git
      搭建 ESP-IDF 开发环境
      进入example文件夹，编译与下载。

结语
      该库实现了语音处理的诸多重要算法【商业角度来说，lib库无可厚非】，实现了音频前端相关算法、关键词唤醒、语音识别和语音合成功能，这些背后涉及大量理论知识。对于一般读者了解和应用，是个很好的开发平台。对本文有兴趣的进去多钻研钻研，一定受益匪浅，尤其是相关专业的同学们，学有所用更有成就感。
      算法部分内容展开而言，已经超出绝大多数码农的水平，了解下当前mcu做到什么程度，支持哪些牛叉的功能，懂相关基础知识就够了，勉强会用就行了。

注：本文作为《基于STM32H7和ESP32S3的网络收音机开发实战指南》系列帖子的扩展篇，扩展读者视野所用。

eric2013 · 发表于 2025-12-19 11:03:55

谢谢楼主分享。

		自动登录	找回密码
密码			立即注册

[客户分享] 乐鑫专题系列之--ESP-Skainet库【2】

浏览过的版块