硬汉嵌入式论坛

 找回密码
 立即注册
查看: 395|回复: 1
收起左侧

[客户分享] 乐鑫专题系列之--ESP-Skainet库【2】

[复制链接]

8

主题

13

回帖

42

积分

新手上路

积分
42
发表于 2025-12-17 19:00:59 | 显示全部楼层 |阅读模式
源码链接 与 简介
    https://github.com/espressif/esp-skainet/tree/master
    https://github.com/espressif/esp-skainet/blob/master/README_cn.md
    4.png


摘录关键信息如下:
    ESP-Skainet 是乐鑫推出的智能语音助手,目前支持 唤醒词识别 语音命令词识别
    官方推荐使用 ESP32-S3 运行语音命令词识别【支持 AI 指令和高速八线 OSPI PSRAM--即有大内存,目前的乐鑫模组ESP32S3-N16R8 PSRAM最大是8MB】。最新模型优先在这种性能高的RF MCU上部署【存储大,性能强】。
    关于PSRAM,参见笔者本文: https://forum.anfulai.cn/forum.php?mod=viewthread&tid=130251&highlight=psram


    该官方库实现了 基于乐鑫 ESP32 系列芯片的 唤醒词识别 和 语音命令词识别 功能。核心功能实现如下图:
    skainet_overview2.png
    从左到右介绍如下:
    输入
        输入音频源是MIC或存储芯片flash/sd里的wav/pcm音频文件。
    原始音频数据预处理
       声学前端(AFE)算法集成了回声消除(AEC)、自动增益控制(AGC)、噪声抑制(NS)、语音活动检测(VAD)、盲源分离(BSS)等算法
        乐鑫双麦克风声学前端(AFE)已通过 Amazon Alexa Built-in 设备的软件音频前端解决方案认证。
         esp_afe.png   
        这里给出st的音频库链接,当然,里面的算法也都是lib库(st买的,不开源正常)
       https://www.st.com/en/embedded-software/x-cube-audio.html
         st.png
    算法处理
        唤醒词识别模型 WakeNet 提供了高性能、低资源消耗的唤醒词检测算法,使设备能够持续等待如“Alexa”、“天猫精灵”、“小爱同学”等唤醒词
        命令词识别模型 MultiNet 专为提供灵活的离线语音命令词识别而设计。用户可根据需求自定义语音命令,无需重新训练模型。目前 MultiNet 支持最多 200 个中英文命令词,如“打开空调”、“打开卧室灯”或 "Turn on the light" 等。
        tts文本转语音播放,当前支持中文和英文的语音输出。直接给你把 xfs5152  syn6658 等几十块一颗的 tts芯片给省了。
    结果输出
        控制灯,空调,输出音频等用途。


自己动手玩
        准备一块带音频芯片的 ESP32 或 ESP32-S3 开发板就行,可以输入声音【mic/音频文件】,输出声音【喇叭】。官方有很多板。
        当前包括以下demo:
            cn_speech_commands_recognition 使用        MultiNet7 模型
            en_speech_commands_recognition        使用 MultiNet7 模型
            wake_word_detection        使用 WakeNet9 模型
            chinese_tts        使用 esp-tts-v1.7
            usb_mic_recorder       
         3.png
        下载代码 git clone https://github.com/espressif/esp-skainet.git
        搭建 ESP-IDF 开发环境
        进入example文件夹,编译与下载。
   
结语
        该库实现了语音处理的诸多重要算法【商业角度来说,lib库无可厚非】,实现了音频前端相关算法、关键词唤醒、语音识别和语音合成功能,这些背后涉及大量理论知识。对于一般读者了解和应用,是个很好的开发平台。对本文有兴趣的进去多钻研钻研,一定受益匪浅,尤其是相关专业的同学们,学有所用更有成就感。
        算法部分内容展开而言,已经超出绝大多数码农的水平,了解下当前mcu做到什么程度,支持哪些牛叉的功能,懂相关基础知识就够了,勉强会用就行了。


   注:本文作为 《基于STM32H7和ESP32S3的网络收音机开发实战指南》 系列帖子的 扩展篇,扩展读者视野所用。

回复

使用道具 举报

1万

主题

7万

回帖

12万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
120427
QQ
发表于 2025-12-19 11:03:55 | 显示全部楼层
谢谢楼主分享。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|Archiver|手机版|硬汉嵌入式论坛

GMT+8, 2026-1-9 17:32 , Processed in 0.046693 second(s), 28 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表