基于卷積神經(jīng)網(wǎng)絡(luò)的語音分離方法研究與實(shí)現(xiàn)
本文選題:語音分離 切入點(diǎn):卷積神經(jīng)網(wǎng)絡(luò) 出處:《內(nèi)蒙古大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著智能手機(jī)和智能設(shè)備逐漸普及,人機(jī)語音交互技術(shù)日益得到了廣泛的關(guān)注和重視。如何使人機(jī)語音交互變得像人與人之間的交流一樣方便和高效成為了最近幾年研究的熱點(diǎn)問題。而人機(jī)語音交互技術(shù)中核心問題之一是語音分離,前端語音分離模塊的性能對人機(jī)交互中的自動(dòng)語音識(shí)別、語音自動(dòng)翻譯和說話者識(shí)別都有十分重要的影響。近幾年隨著深度學(xué)習(xí)的興起,基于深度模型的語音分離逐漸成為了一種新的研究趨勢,并且得到了較好的語音分離效果。然而,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的語音分離研究成果還非常少。并且,相比于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),CNN更加擅長于挖掘輸入語音信號(hào)中的時(shí)空特性,能夠更好地刻畫語音特征。在本文中采用卷積神經(jīng)網(wǎng)絡(luò)作為建模工具進(jìn)行語音分離。本文完成了單通道語音分離和多通道語音分離兩個(gè)實(shí)驗(yàn),其中每個(gè)實(shí)驗(yàn)都在相同數(shù)據(jù)集上使用卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)兩個(gè)模型來分別實(shí)現(xiàn)的。單通道語音分離是在標(biāo)準(zhǔn)語音庫TIMIT上進(jìn)行的實(shí)驗(yàn),多通道語音分離是在CHIME3官方提供的比賽數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn),經(jīng)實(shí)驗(yàn)結(jié)果表明,相比于深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)能夠在明顯降低模型復(fù)雜度和減少訓(xùn)練權(quán)重參數(shù)的同時(shí),估計(jì)出具有更高主觀語音質(zhì)量(Perceptual Evaluation of Speech Quality,PESQ)和短時(shí)客觀語音可懂度(Short Time Objective Intelligibility,STOI)的語音。
[Abstract]:With the popularity of smartphones and smart devices, The technology of human-computer speech interaction has been paid more and more attention. How to make human-computer speech interaction as convenient and efficient as the communication between people has become a hot issue in recent years. One of the core issues in interoperability is speech separation. The performance of the front-end speech separation module plays an important role in automatic speech recognition, speech translation and speaker recognition in human-computer interaction. Speech separation based on depth model has gradually become a new research trend, and has obtained better speech separation effect. However, the research results of speech separation based on convolution neural network Convolutional Neural Network (CNN) are still very few. Compared with Deep Neural Network CNN, it is better at mining temporal and spatial characteristics of input speech signals. In this paper, convolution neural network is used as a modeling tool for speech separation. In this paper, two experiments of single channel speech separation and multi channel speech separation are completed. Each experiment is implemented on the same data set using convolution neural network and depth neural network respectively. Single channel speech separation is carried out on the standard speech corpus TIMIT. Multi-channel speech separation is an experiment based on the competition data provided by CHIME3. The experimental results show that compared with the depth neural network, the convolutional neural network can significantly reduce the complexity of the model and reduce the training weight parameters at the same time. The speech with higher subjective Evaluation of Speech quality and short Time Objective intelligibilitySTOI) is estimated.
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李從清;孫立新;龍東;任曉光;;語音分離技術(shù)的研究現(xiàn)狀與展望[J];聲學(xué)技術(shù);2008年05期
2 施劍;杜利民;;基于麥克陣列的實(shí)時(shí)盲語音分離系統(tǒng)[J];微計(jì)算機(jī)應(yīng)用;2008年05期
3 張磊;劉繼芳;項(xiàng)學(xué)智;;基于計(jì)算聽覺場景分析的混合語音分離[J];計(jì)算機(jī)工程;2010年14期
4 楊海濱;張軍;;基于模型的單通道語音分離綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年11期
5 虞曉,胡光銳;基于高斯混合密度函數(shù)估計(jì)的語音分離[J];上海交通大學(xué)學(xué)報(bào);2000年01期
6 虞曉,胡光銳;基于高斯混合密度函數(shù)估計(jì)的語音分離[J];上海交通大學(xué)學(xué)報(bào);2000年02期
7 張雪峰,劉建強(qiáng),馮大政;一種快速的頻域盲語音分離系統(tǒng)[J];信號(hào)處理;2005年05期
8 陳鍇;盧晶;徐柏齡;;基于話者狀態(tài)檢測的自適應(yīng)語音分離方法的研究[J];聲學(xué)學(xué)報(bào);2006年03期
9 董優(yōu)麗;謝勤嵐;;不確定信號(hào)源個(gè)數(shù)的語音分離[J];現(xiàn)代電子技術(shù);2008年03期
10 徐方鑫;;瑞米茲交替算法在語音分離上的應(yīng)用[J];電腦知識(shí)與技術(shù);2012年03期
相關(guān)會(huì)議論文 前5條
1 史曉非;王憲峰;黃耀P;劉人杰;;一個(gè)推廣參數(shù)矢量算法在語音分離中的應(yīng)用[A];中國航海學(xué)會(huì)通信導(dǎo)航專業(yè)委員會(huì)2004學(xué)術(shù)年會(huì)論文集[C];2004年
2 劉學(xué)觀;陳雪勤;趙鶴鳴;;基于改進(jìn)遺傳算法的混疊語音分離研究[A];第十屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年
3 林靜然;彭啟琮;邵懷宗;;基于麥克風(fēng)陣列的雙波束近場定位及語音分離[A];第二屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2004年
4 茅泉泉;趙力;;基于MIMO的盲信道語音分離技術(shù)[A];2004年全國物理聲學(xué)會(huì)議論文集[C];2004年
5 李量;杜憶;吳璽宏;Claude Alain;;人類聽皮層在語音分離中對頻率線索和空間線索的線性整合[A];增強(qiáng)心理學(xué)服務(wù)社會(huì)的意識(shí)和功能——中國心理學(xué)會(huì)成立90周年紀(jì)念大會(huì)暨第十四屆全國心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
相關(guān)博士學(xué)位論文 前3條
1 王燕南;基于深度學(xué)習(xí)的說話人無關(guān)單通道語音分離[D];中國科學(xué)技術(shù)大學(xué);2017年
2 趙立恒;基于計(jì)算聽覺場景分析的單聲道語音分離研究[D];中國科學(xué)技術(shù)大學(xué);2012年
3 王雨;基于計(jì)算聽覺場景分析的單通道語音分離研究[D];華東理工大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 趙訓(xùn)川;基于計(jì)算聽覺場景分析和麥克風(fēng)陣列的語音分離的研究[D];燕山大學(xué);2015年
2 何求知;單通道語音分離關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2015年
3 曹猛;基于計(jì)算聽覺場景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語音分離[D];太原理工大學(xué);2016年
4 李梟雄;基于雙耳空間信息的語音分離研究[D];東南大學(xué);2015年
5 王瑜;基于計(jì)算聽覺場景分析的三通道語音分離研究[D];燕山大學(xué);2016年
6 王菁;基于計(jì)算聽覺場景分析的混合語音分離[D];燕山大學(xué);2016年
7 束佳明;基于雙耳聲源定位的魯棒語音分離研究[D];東南大學(xué);2016年
8 陳麟琳;基于機(jī)器學(xué)習(xí)的欠定語音分離方法研究[D];大連理工大學(xué);2016年
9 李號(hào);基于深度學(xué)習(xí)的單通道語音分離[D];內(nèi)蒙古大學(xué);2017年
10 夏莎莎;監(jiān)督性語音分離中訓(xùn)練目標(biāo)的研究[D];內(nèi)蒙古大學(xué);2017年
,本文編號(hào):1639382
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/1639382.html