論文地址:https://ieeexplore.ieee.org/abstract/document/9357975/

基於半盲源分離的非線性回聲消除

摘要:

當使用非線性自適應濾波器時,數值模型與實際非線性模型之間的不匹配是非線性聲回聲消除(NAEC)的一個挑戰。為了解决這一問題,我們提出了一種基於半盲源分離(SBSS)的有效方法,該方法對無記憶非線性進行基泛展開,然後將未知的非線性展開系數合並到回聲路徑中。將遠端輸入信號的所有基函數視為已知的等效參考信號,推導了一種基於約束比例自然梯度策略的SBSS更新算法。與常用的自適應算法不同,該算法基於近端信號與參考信號之間的獨立性,對數值模型與實際模型之間的非線性不匹配不敏感。仿真和實際捕獲數據的實驗結果驗證了該方法在NAEC中的有效性。

關鍵字:約束尺度自然梯度,非線性聲學回聲消除,半盲源分離

1 引言

線性聲學回聲消除假設遠端輸入信號與回聲路徑線性卷積得到回聲信號,通常可以采用線性自適應濾波方法估計回聲路徑,消除回聲信號[1]-[3]。然而,非線性在實際應用中總是不可避免的,特別是在使用微型揚聲器的智能手機和筆記本電腦等便攜式設備中。因此,非線性聲學回聲消除(NAEC)具有更好的回聲消除性能。大量的模型被用來描述NAEC系統中的非線性,如WienerHammerstein[4]和Volterra[5]模型,多項式飽和[6]和神經網絡[7]。

無記憶非線性可以很好地模擬揚聲器[8]的非線性失真,其中回聲路徑可以分解為非線性模型的級聯結構和線性回聲路徑[9]-[10]。在[9]中,采用RLS算法學習有限脈沖響應濾波器的系數和預處理器中高達七階的多項式,學習率高。在[10]中提出了非線性級聯濾波器和雙線性濾波器等方法來補償非線性回聲。在[8]中提出了一種隱式聯合學習策略,將未知的多項式系數吸收到未知的回聲路徑中,形成了等效的時域多通道自適應結構,即功率濾波器。通過减小功率濾波器通道[8]、[11]之間的互相關,可以提高非線性回聲路徑的估計。在[12]中,采用Hammerstein模型來描述與線性房間脈沖響應連接的揚聲器的無記憶非線性,並提出了一種利用偽幅度平方相幹函數來識別Hammerstein系統非線性的在線AEC算法。通過考慮無記憶非線性[13]的基泛展開,並將非線性展開系數吸收到未知的回聲路徑中,可將級聯觀測模型轉化為等效的線性多通道結構[14]。在[14]中,進一步利用多通道一階馬爾可夫模型建立多通道狀態空間模型,並在[15]卡爾曼濾波器的基礎上得到多通道狀態空間頻域自適應濾波器(MCSSFDAF)。該濾波器自適應速度快,性能優於最小均方(LMS)和遞歸最小二乘(RLS)自適應濾波器[1]。將[14]中提出的方法作為最先進的解决方案,進一步擴展並實現在麥克風陣列[16]中。

自適應濾波在很大程度上取决於數值非線性模型的准確性,因為自適應濾波的本質是識別揚聲器激勵和麥克風捕獲信號之間的傳遞函數。數值模型與實際非線性模型的不匹配將對系統產生不利影響,並可能導致系統性能惡化。半盲源分離(SBSS)源於盲源分離(BSS)[17],也可用於AEC的[18]-[20]。SBSS方法在[21]中首次提出,並在[18]中成功實現了多通道BSS和單通道AEC在頻域的結合。隨後在[19]和[20]中錶明,BSS和多通道AEC可以有效地結合,從而產生沒有雙話檢測的SBSS。SBSS也被證明能够估計雙說話[22]-[24]的回聲路徑。基於獨立半盲信號源分離的非線性聲回聲消除算法通常是基於獨立半盲信號源分離的非線性聲回聲消除算法。理論上對數值和實際傳遞函數之間的不匹配不太敏感。然而,現有的SBSS是用來解决線性AEC問題的,不能直接應用於NAEC系統。

在本文中,我們將SBSS與一個非線性模型相結合,旨在提高NAEC在實際應用中非線性模型偏離實際模型的性能。首先對參考信號進行無記憶非線性[13]-[14]的基泛展開,並將擴展系數合並到回聲路徑中。將遠端輸入信號的每個基函數視為已知的等效參考信號,采用約束比例自然梯度策略[20],[25]設計更新過程。

2 NAEC的SBSS模型

圖1 在無記憶非線性存在的NAEC的SBSS模型

NAEC系統的SBSS模型如圖1所示。揚聲器的非線性模型為無記憶非線性函數\(f(·)\),它將時間指數為t的遠端輸入信號\(x(t)\)轉換為非線性映射的輸入信號\(f(x(t))\)。信號\(f(x(t))\)與回聲路徑\(h(t)\)線性卷積,得到回聲信號\(d(t)\)。將近端信號\(s(t)\)疊加到回聲信號\(d(t)\)上,得到麥克風信號\(y(t)\)為

\[y(t)=d(t)+s(t)=h(t) * f(x(t))+s(t) (1)
\]

在實際應用中,實際的非線性模型是未知的,非線性映射輸入信號\(f(x(t))\)的基泛展開通常被用作[13]-[14]

\[f(x(t))=\sum_{i=1}^{p} a_{i} \phi_{i}(x(t)) (2)
\]

其中\(\phi_{i}(\cdot)\)為第i階基函數,\(a_{i}\)為對應系數,\(p\)為展開階。將(2)代入(1):

\[y(t)=h(t) *\left[\sum_{i=1}^{p} a_{i} \phi_{i}(x(t))\right]+s(t) (3)
\]

將膨脹系數\(a_{i}\)合並到回聲路徑\(h(t)\)中,(3)可以錶示為

\[y(t)=\sum_{i=1}^{p} h_{i}^{\prime}(t) * \phi_{i}(x(t))+s(t) (4)
\]

其中\(h_{i}^{\prime}(t)\)錶示\(i\)階基函數對應的回聲路徑為:

\[h_{i}^{\prime}(t)=a_{i} h(t) (5)
\]

利用短時傅裏葉變換(STFT),可以得到(4)的頻域錶示為:

\[Y(k, n)=\sum_{i=1}^{p} H_{i}(k, n) X_{i}(k, n)+S(k, n) (6)
\]

其中\(Y(k, n), H_{i}(k, n), X_{i}(k, n)\), 和 \(S(k, n)\)分別是\(y(t), h_{i}^{\prime}(t), \phi_{1}(x(t))\), 和 \(s(t)\)的頻域錶示,其頻率指標為\(k\),框架指標為\(n\)。將\(X_{i}(k, n)\) with \(Y(k, n)\) 和 \(S(k, n)\)分別組合成向量形式為:

\[\mathbf{y}(k, n)=\left[Y(k, n), X_{1}(k, n), \ldots, X_{p}(k, n)\right]^{T} (7)
\]
\[\mathbf{s}(k, n)=\left[S(k, n), X_{1}(k, n), \ldots, X_{p}(k, n)\right]^{T} (8)
\]

則(6)的矩陣形式可以錶示為

\[\mathbf{y}(k, n)=\mathbf{H}(k, n) \mathbf{s}(k, n) (9)
\]

式中,\(\mathbf{H}(k, n)\)為大小為\((p+1) \times(p+1)\)的混合矩陣,分塊公式為

\[\mathbf{H}(k, n)=\left[\begin{array}{cc}
1 & \mathbf{h}^{T}(k, n) \\
\mathbf{0}_{p \times 1} & \mathbf{I}_{p}
\end{array}\right] (10)
\]

設\(\mathbf{0}_{p \times 1}\)為大小為\(p×1\)的零向量,\(\mathbf{I}_{p}\)為大小為\(p \times p\)的單比特矩陣, \(\mathbf{h}(k, n)\)為大小為\(p \times 1\)的混合向量

\[\mathbf{h}(k, n)=\left[H_{1}(k, n), \ldots, H_{p}(k, n)\right]^{T} (11)
\]

由於\(x(t)\)是已知的輸入信號,因此\(\phi_{1}(x(t))\) 和 \(X_{i}(k, n)\)也是已知的。以\(X_{i}(k, n)\)為參考信號,利用SBSS方法提取未知近端信號\(S(k, n)\)。分解過程描述為:

\[\mathbf{e}(k, n)=\mathbf{W}(k, n) \mathbf{y}(k, n) (12)
\]

其中\(\mathrm{e}(k, n)\)為大小為\((p+1) \times 1\)的估計向量,\(\mathbf{W}(k,n)\)為大小為\((p+1) \times(p+1)\)的分解矩陣

\[\mathbf{e}(k, n)=\left[E(k, n), X_{1}(k, n), \ldots, X_{p}(k, n)\right]^{T} (13)
\]
\[\mathbf{W}(k, n)=\left[\begin{array}{cc}
1 & \mathbf{w}^{T}(k, n) \\
\mathbf{0}_{p \times 1} & \mathbf{I}_{p}
\end{array}\right] (14)
\]

其中\(E(k, n)\)為近端信號\(S(k, n)\)的估計,\(\mathbf{w}(k, n)\)為大小為\(p \times 1\)的解混向量。

有人可能會說所有的\(X_{l}(k, n)\)都是從同一個參考信號\(x(t)\)變換而來的;因此它們不滿足獨立假設,而獨立假設是BSS方法的基礎。然而,對於NAEC中使用的SBSS,近端信號獨立於參考信號,混合和分解矩陣都受到約束,因此近端信號仍然可以有效地恢複。在多通道AEC[20]中,已經驗證了具有線性相關參考信號的SBSS的可行性。

3 在線SBSS算法

采用獨立分量分析(ICA)和獨立矢量分析(IVA)[26]、[27]常用的自然梯度在線SBSS算法對(12)中的分解矩陣進行優化。根據IVA中類似的推導,\(\mathbf{W}(k, n)\)的更新規則為:

\[\mathbf{W}(k, n+1)=\mathbf{W}(k, n)+\eta\left[\mathbf{I}_{p+1}-\Phi(\mathbf{e}(k, n)) \mathbf{e}^{H}(k, n)\right] \mathbf{W}(k, n) (15)
\]

其中,\(\eta\)為學習率,\((\cdot)^{H}\)為厄米特轉置,非線性函數\(\Phi(\cdot)\)為多元評分函數。該多元評分函數的典型形式來自於[26]中依賴的多元超高斯分布:

\[\Phi(\mathbf{e}(k, n))=\left[\Phi\left(e_{1}(k, n)\right), \ldots, \Phi\left(e_{p+1}(k, n)\right)\right]^{T} (16)
\]
\[\Phi\left(e_{j}(k, n)\right)=\frac{e_{j}(k, n)}{\sqrt{\sum_{k=1}^{K}\left|e_{j}(k, n)\right|^{2}}} (17)
\]

其中\(e_{j}(k, n)\)錶示向量\(\mathrm{e}(k, n)\)的第\(j\)個元素,\(k\)為頻率點的個數。為了在保持(14)分解矩陣約束結構的同時獲得穩定的算法,我們進一步使用約束比例自然梯度策略[20],[25],更新方程錶示為:

\[\Delta \mathbf{W}(k, n)=\left[\mathbf{I}_{p+1}-\frac{1}{d(k, n)} \Phi(\mathbf{e}(k, n)) \mathbf{e}^{H}(k, n)\right] \mathbf{W}(k, n), (18)
\]
\[\Delta \mathbf{W}_{2 p+1,:}(k, n)=\mathbf{O}_{p \times(p+1)} (19)
\]
\[\mathbf{W}(k, n+1)=c(k, n)[\mathbf{W}(k, n)+\eta \Delta \mathbf{W}(k, n)] (20)
\]
\[\mathbf{W}_{1, ;}(k, n+1)=\frac{\mathbf{W}_{1,}(k, n+1)}{\mathbf{W}_{1,1}(k, n+1)} (21)
\]
\[\mathbf{W}_{2: p+1,2: p+1}(k, n+1)=\mathbf{I}_{p} (22)
\]

其中\(\Delta \mathbf{W}(k, n)\)是更新的\(\mathbf{W}(k, n)\), \(\mathbf{O}_{p \times(p+1)}\)代錶一個零矩陣的大小\(p \times(p+1)\), \(\Delta \mathbf{W}_{2: p+1,:}(k, n)\)代錶由矩陣\(\Delta \mathbf{W}(k, n)\)的第2到第\((p+1)\)行組成的矩陣, \(\mathbf{W}_{1,(k, n+1)}\)代錶矩陣\(\mathbf{W}(k, n+1)\)的第一行, \(\mathbf{W}_{1,1}(k, n+1)\)代錶矩陣\(\mathbf{W}(k, n+1)\)元素的第一行和第一列, \(\mathbf{W}_{2: p+1,2 \cdot p+1}(k, n+1)\)代錶矩陣\(\mathbf{W}(k, n+1)\)右下角\(p \times p\)大小的一個方陣,\(d(k, n)\)和\(c(k, n)\)的縮放因子,計算在[25]。

該算法基於近端信號與參考信號之間的獨立性。因此,它對數值模型與實際模型之間的非線性不匹配不敏感。

4 實驗和仿真

為了驗證該算法的有效性,我們使用仿真數據和真實捕獲數據,比較了SBSS算法和基於子矩陣對角MCSSFDAF (SD-MCSSFDAF)[14]的最先進NAEC算法的性能。可在網上找到示例音頻樣本https://github.com/ChengGuoliang0/audio-samples

A 仿真

我們考慮兩種類型的非線性映射來模擬無記憶揚聲器的非線性:硬剪切[9]和軟飽和[6]。硬剪切模型錶示為:

\[f(x(t))= \begin{cases}-x_{\max }, & x(t)<-x_{\max } \\ x(t), & |x(t)| \leq x_{\max } \\ x_{\max }, & x(t)>x_{\max }\end{cases} (23)
\]

其中,\(x_{\max }\)是剪切閾值。軟飽和度模型錶示為:

\[f(x(t))=\frac{x_{\max } x(t)}{\sqrt[\rho]{\left|x_{\max }\right|^{\rho}+|x(t)|^{\rho}}} (24)
\]

其中\(\rho\)是一個非自適應形狀參數。

算法的實現考慮了匹配條件和不匹配條件。在匹配條件下,算法采用了與實際模型和數值模型相同的非線性。在不匹配條件下,利用奇數幂級數[14]作為(2)中的基函數\(\phi_{i}(\cdot)\),描述為:

\[\phi_{i}(x(t))=x^{2 i-1}(t), \quad i=1,2, \ldots, p (25)
\]

在所有的仿真和實驗中,兩種算法的非線性展開階均設為\(p = 3\)。

(1)單講情况

將10秒長的語音信號作為遠端輸入信號\(x(t)\),利用這兩個非線性映射進行失真,生成麥克風信號\(y(t)\),並利用高斯白噪聲\(s(t)\)錶示單音情况下的背景噪聲。我們使用信失真比(SDR)來量化非線性程度,定義為\(10 \log _{10}\left\{\mathrm{E}\left[x^{2}(t)\right] / \mathrm{E}\left[(f(x(t))-x(t))^{2}\right]\right\}\) [14],並設置為5 dB。回聲近端信號功率比(ESR)設為ESR = 60 dB,定義為\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[s^{2}(t)\right]\right\}\) [14]。回聲路徑為圖像法[28]產生的房間脈沖響應,采樣率為16 kHz,混響時間為0.2 s。SBSS算法的學習率\(\eta\)設為0.1。SD-MCSSFDAF算法的參數設置為[14]。性能由回聲損耗增强(ERLE)來衡量,定義為\(10 \log _{10}\left\{\mathrm{E}\left[y^{2}(t)\right] / \mathrm{E}\left[e^{2}(t)\right]\right\}\)[14]。兩種非線性情况下的ERLE結果如圖2所示。可以看出,在非線性完全匹配的情况下,SD-MCSSFDAF算法收斂後的性能明顯優於SBSS算法。然而,當利用(25)中的基函數時,由於非線性失配的影響,SDMCSSFDAF算法的性能明顯下降,所提出的非線性SBSS方法的優勢顯而易見。

圖2 ERLE會產生匹配和不匹配的條件。(a)硬剪裁。(b)軟飽和。

(1)雙講情况

利用SDR = 5 dB的兩個非線性映射,對遠端語音信號\(x(t)\)再次進行了失真處理。將近端信號\(s(t)\)與回聲信號\(d(t)\)疊加,得到ESR = 0 dB的麥克風信號\(y(t)\)。近端信號\(s(t)\)也是一個10 s長的語音信號。雙講情况下只考慮更實際的不匹配條件,性能由真ERLE (tERLE)度量,定義為\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[(e(t)-s(t))^{2}\right]\right\}\)[20]。此外,還采用感知語音質量評價(PESQ)[29]和短時客觀可理解性(STOI)[30]-[31]作為評價近端信號語音質量的客觀指標。兩種非線性映射的tERLE結果如圖3所示,近端語音質量評價結果如錶1所示,從中可以看出本文方法的有效性。

錶1 近端語音質量評價結果

圖3 tERLE的結果是不匹配的條件。(1)硬剪裁。(b)飽和度較低

B 真實實驗

我們還評估了提出的SBSS算法的性能使用真實捕獲的數據。微型揚聲器發出的語音信號,不可避免地包含未知非線性,由一個信噪比(SNR)約為20 dB的麥克風記錄下來。信號長度為10 s,采樣率為16 kHz。圖4顯示了單對話情况下的ERLE結果。顯然,在這種不匹配條件下,SBSS算法的ERLE性能優於SD-MCSSFDAF算法。在雙講情况下,使用一個10秒長的語音信號作為近端信號,並調整音量,以達到0 dB的ESR。tERLE結果和近端語音質量評價結果分別如圖5和錶2所示。由此可見,SBSS算法不僅在雙講條件下實現了更多的回聲消除,而且具有更好的近端語音質量。

錶2 使用真實數據的近端語音質量評價結果

​圖4 ERLE結果的真實數據為單講的情况。

​圖5 tERLE結果的真實數據的雙講情况。

5 結論

在本文中,我們提出了一種新的基於SBSS的NAEC算法。我們將基函數的非線性展開系數合並到回聲路徑中。將遠端輸入信號的所有基函數視為已知的等效參考信號,利用約束比例自然梯度策略導出了一種在線SBSS算法。與基於自適應濾波的NAEC算法相比,基於近端信號和參考信號之間的獨立性的SBSS算法對數值模型和實際模型之間非線性不匹配的敏感性較低。兩類非線性映射的仿真和真實捕獲數據的實驗驗證了所提出的SBSS算法在數值非線性模型與實際模型不匹配的情况下取得了更好的回聲消除性能。

6 參考文獻

[1] E. Hänsler and G. Schmidt, Acoustic Echo and Noise Control: A Practical Approach. Hoboken, NJ, USA: Wiley, 2004.

[2] H. Zhao, Y. Yu, S. Gao, X. Zeng and Z. He, “Memory proportionate APA with individual activation factors for acoustic echo cancellation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 6, pp. 1047–1055, Jun. 2014.

[3] W. Fan, K. Chen, J. Lu and J. Tao, “Effective improvement of undermodeling frequency-domain Kalman filter,” IEEE Signal Process. Lett., vol. 26, no. 2, pp. 342–346, Feb. 2019.

[4] M. Zeller and W. Kellermann, “Coefficient pruning for higher-order diagonals of Volterra filters representing Wiener-Hammerstein models,” in Proc. Int. Workshop, Acoust. Echo, Noise Control, Seattle, WA, Sep. 2008.

[5] M. Zeller and W. Kellermann, “Fast and robust adaptation of DFTdomain Volterra filters in diagonal coordinates using iterated coefficient updates,” IEEE Trans. Signal Process., vol. 58, no. 3, pp. 1589–1604, Mar. 2010.

[6] B. S. Nollett and D. L. Jones, “Nonlinear echo cancellation for hands-free speakerphones,” in Proc. IEEE Workshop, Nonlinear Signal, Image Process., Mackinac Island, MI, Sep. 1997.

[7] A. N. Birkett and R. A. Goubran, “Acoustic echo cancellation using NLMS-neural network structures,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Detroit, MI, May 1995, vol. 5, pp. 3035–3038.

[8] F. Küch, A. Mitnacht, and W. Kellermann, “Nonlinear acoustic echo cancellation using adaptive orthogonalized power filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Philadelphia, PA, Mar. 2005, vol. 3, pp. 105–108.

[9] A. Stenger and W. Kellermann, “Adaptation of a memoryless preprocessor for nonlinear acoustic echo cancelling,” Signal Process., vol. 80, no. 9, pp. 1747–1760, Sep. 2000.

[10] J. P. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Hong Kong, China, Apr. 2003, vol. 5, pp. 389–392.

[11] F. Kuech and W. Kellermann, “Orthogonalized power filters for nonlinear acoustic echo cancellation,” Signal Process., vol. 86, no. 6, pp. 1168–1181, Jun. 2006.

[12] K. Shi, X. Ma, and G. T. Zhou, “Acoustic echo cancellation using a pseudocoherence function in the presence of memoryless nonlinearity,” IEEE Trans. Circuits Syst. I, vol. 55, no. 9, pp. 2639–2649, Oct. 2008.

[13] S. Malik and G. Enzner, “Fourier expansion of Hammerstein models for nonlinear acoustic system identification,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Prague, CZ, May 2011, pp. 85–88.

[14] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 7, pp. 2065–2079, Sep. 2012.

[15] G. Enzner and P. Vary, “Frequency-domain adaptive Kalman filter for acoustic echo control in hands-free telephones,” Signal Process., vol. 86, no. 6, pp. 1140–1156, Jun. 2006.

[16] J. Park and J. Chang, “State-space microphone array nonlinear acoustic echo cancellation using multi-microphone near-end speech covariance,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 10, pp. 1520–1534, Oct. 2019.

[17] J. F. Cardoso, “Blind signal separation: statistical principles,” Proceedings of the IEEE, vol. 86, no. 10, pp. 2009–2025, Oct. 1998.

[18] S. Miyabe, T. Takatani, H. Saruwatari, K. Shikano, and Y. Tatekura, “Barge-in and noise-free spoken dialogue interface based on sound field control and semi-blind source separation,” in Proc. Eur. Signal Process. Conf., Florence, Italy, Sep. 2007, pp. 232–236.

[19] T. S. Wada, S. Miyabe, and B. H. Juang, “Use of decorrelation procedure for source and echo suppression,” in Proc. IWAENC, Seattle, WA, Sep. 2008.

[20] F. Nesta, T. S. Wada, and B. H. Juang, “Batch-online semi-blind sourceseparation applied to multi-channel acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 3, pp. 583–599, Mar. 2011.

[21] M. Joho, H. Mathis, and G. S. Moschytz, “Combined blind/nonblind source separation based on the natural gradient,” IEEE Signal Process. Lett., vol. 8, no. 8, pp. 236–238, Aug. 2001.

[22] J. Gunther, “Learning echo paths during continuous double-talk using semi-blind source separation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 2, pp. 646–660, Feb. 2012.

[23] Z. Koldovský, J. Málek, M. Müller, and P. Tichavský, “On semi-blind estimation of echo paths during double-talk based on nonstationarity,” in Proc. IWAENC, Juan-les-Pins, France, 2014, pp. 198–202.

[24] J. Gunther and T. Moon, “Blind acoustic echo cancellation without double-talk detection,” in Proc. IEEE Workshop Appl. Signal Process. Audio Acoust., New Paltz, NY, USA, Oct. 2015, pp. 1–5.

[25] S. Douglas and M. Gupta, “Scaled natural gradient algorithms for instantaneous and convolutive blind source separation,” in Proc. ICASSP, Apr. 2007, vol. II, pp. 637–640.

[26] T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, Jan. 2007.

[27] T. Kim, “Real-time independent vector analysis for convolutive blind source separation,” IEEE Trans. on Circuit and systems, vol. 57, no. 7, pp. 1431–1438, Jul. 2010.

[28] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Amer., vol. 65, no. 4, pp. 943–950, Apr. 1979.

[29] ITU-T, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. 862, International Telecommunications Union, 2000.

[30] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “A short-time objective intelligibility measure for time-frequency weighted noisy speech,” in ICASSP, Dallas, TX, USA, Mar. 2010, pp. 4214–4217.

[31] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125–2136, Sep. 2011.

論文翻譯:2021_Semi-Blind Source Separation for Nonlinear Acoustic Echo Cancellation的更多相關文章

  1. 論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

    論文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362 神經網絡支持的回聲.混響和噪聲聯合多通道降噪 摘要 我們考慮 ...

  2. 論文翻譯:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

    論文地址:深度學習用於噪音和雙語場景下的回聲消除 博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html 摘要 傳統的聲學回聲消除(AEC)通過使 ...

  3. 論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

    論文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf 基於GAN的回聲消除 摘要 生成對抗網絡(GANs)已成為語音增强( ...

  4. 論文翻譯:2020_A Robust and Cascaded Acoustic Echo Cancellation Based on Deep Learning

    論文地址:https://indico2.conference4me.psnc.pl/event/35/contributions/3364/attachments/777/815/Thu-1-10- ...

  5. Evaluation of fast-convergence algorithm for ICA-based blind source separation of real convolutive mixture

    實際卷積混合情况下,基於ICA的盲源分離算法快速收斂性能評估[1]. 提出了一種新的盲源分離算法,該算法將獨立分量分析ICA和波束形成BF相結合,通過優化算法來解决盲源分離的低收斂問題.該方法由以下三 ...

  6. 論文翻譯:2020_Attention Wave-U-Net for Acoustic Echo Cancellation

    論文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-10.pdf Attention Wave-U-Net 的回聲消除 摘要 提出了 ...

  7. Tips on Blind Source Separation

    盲源分離是指在不知道源信號和信道傳輸參數的情况下,根據輸入信號的統計特性,僅由觀測信號恢複出源信號各個獨立成分的過程.盲源分離研究的信號模型主要有三種:線性混合模型.卷積混合模型和非線性混合模型. 1 ...

  8. 論文翻譯:2020_Acoustic Echo Cancellation Challenge Datasets And Testingframework

    論文地址:ICASSP 2021聲學回聲消除挑戰:數據集和測試框架 代碼地址:https://github.com/microsoft/DNS-Challenge 主頁:https://aec-cha ...

  9. 論文翻譯:2020_Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network

    論文地址:https://arxiv.53yu.com/abs/2005.09237 自適應數字濾波與循環神經網絡相結合的回聲消除技術 摘要 回聲消除(AEC)在語音交互中起關鍵作用.由於明確的數學原 ...

  10. 論文翻譯:Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation

    我醉了呀,當我花一天翻譯完後,發現已經網上已經有現成的了,而且翻譯的比我好,哎,造孽呀,但是他寫的是論文筆記,而我是純翻譯,能給讀者更多的思想和理解空間,並且還有參考文獻,也不錯哈,反正翻譯是寫給自己 ...

隨機推薦

  1. tomcate端口設定和服務器虛擬目錄設定

      設定端口和  虛擬目錄 在server.xml <?xml version='1.0' encoding='utf-8'?> <!--   Licensed to the Apa ...

  2. Visual Studio 2010中的stdafx.h和targetver.h兩個頭文件是有什麼用?

    來自百度~stdafx.h中沒有函數庫,只是定義了一些環境參數,使得編譯出來的程序能在32比特的操作系統環境下運行. Windows和MFC的include文件都非常大,即使有一個快速的處理程序,編譯程 ...

  3. CoreOS Architecture Learning

    目錄 . CoreOS簡介 . CoreOS部署.安裝.使用 . CoreOS命令使用 1. CoreOS簡介 0x1: CoreOS和Docker的關系 我們先來看一張Docker的架構圖

  4. Javac早期(編譯期)

    從Sun Javac的代碼來看,編譯過程大致可以分為3個過程: 解析與填充符號錶過程. 插入式注解處理器的注解處理過程. 分析與字節碼生成過程. Javac編譯動作的入口是com.sun.tools. ...

  5. Oracle10g數據類型

    1.     字符類型 數據類型 長度 說明 CHAR(n BYTE/CHAR) 默認1字節,n值最大為2000 末尾填充空格以達到指定長度,超過最大長度報錯.默認指定長度為字節數,字符長度可以從1字 ...

  6. locale------- linux字符集

    查看當前系統字符集 [[email protected] ~]# locale LANG=zh_CN.UTF-8LC_CTYPE="zh_CN.UTF-8"LC_NUMERIC=" ...

  7. Maven介紹,包括作用、核心概念、用法、常用命令、擴展及配置

    由淺入深,主要介紹maven的用途.核心概念(Pom.Repositories.Artifact.Build Lifecycle.Goal).用法(Archetype意義及創建各種項目).maven常 ...

  8. Struts框架之 執行流程 struts.xml 配置詳細

    1.執行流程 服務器啟動: 1. 加載項目web.xml 2. 創建Struts核心過濾器對象, 執行filter  →  init()   struts-default.xml,    核心功能的初 ...

  9. 【Python】 發郵件用 smtplib &amp; email

    smtplib & email ■ 概述 發郵件主要用到smtplib以及email模塊.stmplib用於郵箱和服務器間的連接,發送的步驟.email模塊主要用於處理編碼,郵件內容等等.主要 ...

  10. Linux下C結構體初始化[總結]

    1.前言 今天在公司看一同事寫的代碼,代碼中用到了struct,初始化一個struct用的是亂序格式,如下代碼所示: typedef struct _data_t { int a; int b; }d ...