【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话

ListenAI · 发表于 2025-10-15 17:53:26

【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话前言

本文分享的小聆AI相关的语改善音理论和声纹技术主要是用来提升 AI 智能玩具、机器人等智能硬件在实际场景的语音交互体验。在用户使用中通常会遇到这些问题：1、身边人交谈干扰；2、用户发音模糊；3、玩具碰撞声、哭闹声等突发高频噪声易被声学 VAD 误判为语音；4、呼吸声、风声等高频干扰导致语音失真。针对这些影响人机交互的常见问题，小聆AI做了对应处理，并在小程序端增加了单独人声虑噪的配置功能,大家按照文章中的步骤操作即可自主实现智能硬件。下方视频为实际人机交互场景中的率噪效果。

video(46).mp4

单独人声虑噪的实现理论

为保证AI玩具机器人等智能硬件在嘈杂环境中只听“我”说话的效果，从以下几点进行了优化：

1、语音VAD优化：消除非人声噪声，不响应常见家居噪声（如风扇、电视等）

2、声纹过滤：对人声进行声纹对比，只保留指定声纹的音频

3、语义VAD噪声过滤：分析上下文语义，用户附和时不打断播报，用户犹豫、停顿延长拾音时间

实现步骤

1、准备一个语音交互硬件，可以是CSK6大模型开发板、聆思Arcs mini大模型MCP开发板、也可以是ESP32语音模组