语音活动检测又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期, 静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
那么如何检测用户是否停止说话?
VAD算法全称是Voice Activity Detection,该算法的作用是检测是否是人的语音,使用范围*广,降噪,语音识别等领域都需要有vad检测。vad检测原理(如:webrtc)是根据人声的频谱范围,把输入的频谱分成六个子带:
80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K。
分别计算这六个子带的能量。然后使用高斯模型的概率密度函数做运算,得出一个对数似然比函数。对数似然比分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,所以语音判决会先判断子带,子带判断没有时会判断全局,只要有一个通过认为是语音。