從8kHz到48kHz:音頻帶寬擴展算法的演進
許多智能設備現在支持超寬帶的高質量語音通信服務。然而,有時為了節省帶寬或者當它們與不支持超寬帶的網絡或設備配合使用時,語音質量往往會受到失真影響。此時,可以使用音頻帶寬擴展(Audio Bandwidth Extension, ABE)來改善語音質量。帶寬擴展旨在估計缺失的高頻內容,換句話說,即提高語音信號的分辨率,通常是從 4-8kHz 擴展到 16kHz。早期的研究主要通過窄帶信號的頻譜參數(如頻譜包絡和增益)來估計寬帶信號的頻譜參數。這些方法采用了非負矩陣分解、線性預測編碼、隱馬爾可夫模型以及高斯混合模型等技術。
隨著深度學習的應用極大地提升了帶寬擴展的性能,相較于傳統方法,其建模能力更為強大。深度學習的引入極大地提升了帶寬擴展的效果,特別是自回歸模型、生成對抗網絡(GANs)、變分自編碼器(VAEs)以及基于變換器(Transformer)的架構,使得高頻信息的估計更加精確且自然。此外,近年來,擴散模型(Diffusion Models)也開始應用于帶寬擴展任務,以生成更真實的高頻成分。
音頻的高頻成分在語音質量、感知體驗和下游任務中起著重要作用,主要體現在以下幾個方面:高頻成分包含豐富的諧波信息,對輔音(如 /s/、/f/、/t/)的感知尤為重要。例如,電話語音通常限制在 300Hz-3.4kHz,導致部分輔音聽起來模糊,而帶寬擴展到 16kHz 后,語音更接近真實人聲,清晰度和自然度明顯提高。某些語言的音素主要依賴高頻成分進行區分,例如英語中的 /s/ 和 /?/(“see” vs. “she”),如果高頻信息缺失,聽眾可能難以分辨類似的發音,影響語音的可懂度。高頻成分攜帶重要的空間感知信息,例如房間混響、方向感和立體聲特性。因此,在音樂和沉浸式音頻應用(如 VR、3D 音頻)中,高頻成分能夠增強空間感,使音頻聽起來更自然和生動。在音樂壓縮(如 MP3、AAC)中,高頻成分決定了音色的細膩程度。高頻缺失可能導致音樂變得暗淡、失去層次感。因此,許多高質量音頻編解碼器(如 Hi-Res Audio、LDAC)都強調高頻部分的保留。
下面的視頻是48kHz的全帶音頻和8kHz窄帶音頻(對48kHz音頻使用截止頻率為8kHz低通濾波得到)的對比,很容易聽出全帶音頻聲音較為透亮,而窄帶音頻聲音較為低沉且不清晰。
在傳統帶寬擴展算法中,線性預測系數是比較常用的重構音頻參數,基于線性預測分析的帶寬擴展算法流程框圖如下所示,大致可以分為4個步驟:對音頻進行分幀其中高頻成分通過線性預測分析來估計其中低頻成分直接原始寬帶信號中提取高頻成分通過IFFT得到對應的時域信號,由于低頻(LF)和高頻(HF)估計過程中可能引入不同的延遲,因此需要同步對齊。最后將對齊后的高頻信號和低頻信號進行相加,然后使用OLA進行拼接得到最終的32kHz信號。
通過對比基于線性預測分析(LPC)算法的帶寬擴展技術處理前后的音頻樣本,在輸入信號為8kHz窄帶音頻的條件下,算法成功重構了8-16kHz高頻頻譜成分,并且頻譜沒有明顯的缺失跳變等現象,語音聽感流暢且沒有雜音。
擴散模型(Diffusion Model, DM)在生成類任務中的應用廣泛,尤其在圖像、音頻、文本和3D內容生成等領域取得了突破性的進展。其核心思想是通過逐步添加噪聲將數據映射到高斯分布,然后再逐步去噪生成樣本。因此將其應用在帶寬擴展也是順理成章的事?;跀U散模型的音頻帶寬或者推理過程通過反向擴散過程迭代重建缺失的高頻頻譜(如圖b,c,e所示),同時在反向擴散過程中盲估計低通濾波器的失真(白色線疊加顯示)。其中d詳細展示了一個采樣步驟,應用了DNN作為去噪深度神經網絡,濾波器參數 ?i 通過迭代進行優化,音頻數據 xi 通過重建引導進行更新。
基于深度學習的帶寬擴展算法能力更為強大,下圖是音樂信號經過帶寬擴展前后的頻譜對比。原始信號只有1kHz以下的頻率成分,而經過擴散模型后可以還原1kHz到8kHz的頻率成分。
FFmpeg之父新作——音頻壓縮工具 TSAC緊湊但強大:Intel N-DNS Challenge 冠軍方案解析無所不分:多模態音頻分離模型AudioSep
本文相關代碼:https://github.com/eloimoliner/BABEhttps://github.com/bachhavpramod/bandwidth_extension
參考文獻:
[1]. https://pixl.cs.princeton.edu/pubs/Su_2021_BEI/ICASSP2021_Su_Wang_BWE.pdf[2]. D. Bansal, B. Raj, and P. Smaragdis, “Bandwidth expansion ofnarrowband speech using non-negative matrix factorization,”in European Conference on Speech Com. and Tech., 2005.[3]. P. Bachhav, M. Todisco, and N. Evans, “Efficient super-widebandwidth extension using linear prediction based analysissynthesis,” in ICASSP 2018.[4]. P. Jax and P. Vary, “Artificial bandwidth extension of speechsignals using MMSE estimation based on a hidden Markovmodel,” in ICASSP 2003[5]. H. Seo, H.-G. Kang, and F. Soong, “A maximum a posteriorbased reconstruction approach to speech bandwidth expansion in noise,” in ICASSP 2014.