漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

發(fā)布時(shí)間：2015-02-12 20:21

摘　要：

摘　要：對(duì)語音數(shù)據(jù)庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對(duì)語料庫進(jìn)行統(tǒng)計(jì)的方法一直是目前語音分析和語音技術(shù)的主流；同時(shí)，語音的基礎(chǔ)研究，也很少使用實(shí)驗(yàn)室語音進(jìn)行定性分析，而趨向采用大量自然語料的定量統(tǒng)計(jì)分析，所以語音數(shù)據(jù)庫的標(biāo)注顯得尤為重要。

關(guān)鍵詞：

關(guān)鍵詞：語料庫　語音　標(biāo)注　數(shù)據(jù)庫

　　漢語方言在各個(gè)地方是應(yīng)用比較廣泛的語言，它在發(fā)音、韻律、詞匯及其詞的形態(tài)變化、組織句子結(jié)構(gòu)、文章的構(gòu)成等許多方面都具有各自獨(dú)特的特性。漢語方言語音數(shù)據(jù)庫建設(shè)是漢語方言研究不可缺少的部分。隨著對(duì)漢語方言研究的深入，比如機(jī)器翻譯、語音合成、語音識(shí)別、文字識(shí)別、智能檢索等研究，漢語方言各個(gè)特性的量化描述需求越來越大。正是漢語方言語音數(shù)據(jù)庫，為漢語方言研究提供了確鑿的數(shù)據(jù)。國內(nèi)各種普通話語音數(shù)據(jù)庫有很大的進(jìn)步，并逐漸成熟。漢語方言語音數(shù)據(jù)庫還是寥寥無幾，而且大多數(shù)的研究是從語言學(xué)的角度定性分析和解析，其主要目的是為了語言的共時(shí)研究、語言學(xué)研究以及民族學(xué)研究等等，而從聲學(xué)和物理學(xué)的角度定量分析和解析的研究則比較少。所以，漢語方言語音數(shù)據(jù)庫建設(shè)和研究，有它的歷史價(jià)值和使用價(jià)值。

　　然而，建立漢語方言語音數(shù)據(jù)庫關(guān)鍵的一個(gè)環(huán)節(jié)就是數(shù)據(jù)庫的標(biāo)注。對(duì)語音庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對(duì)語料庫進(jìn)行統(tǒng)計(jì)的方法一直是目前語音分析和語音技術(shù)的主流；同時(shí)，語音的基礎(chǔ)研究，也很少使用實(shí)驗(yàn)室語音進(jìn)行定性分析，而趨向采用大量自然語料的定量統(tǒng)計(jì)分析，所以語音庫標(biāo)注也越來越受到人們的關(guān)注。但是，語音庫的標(biāo)注過程并不是人們所想象的那么簡(jiǎn)單，這本身就是一項(xiàng)研究工作。

根據(jù)編碼標(biāo)注的復(fù)雜程度，可將語音數(shù)據(jù)庫的標(biāo)注細(xì)分為以下幾種情況：加任何處理的純文本語料庫；經(jīng)過格式屬性標(biāo)注的語料庫，如對(duì)段落、字體、字號(hào)進(jìn)行標(biāo)注；對(duì)識(shí)別信息進(jìn)行標(biāo)注，如作者、體裁、語域，以及詞性標(biāo)注；特殊標(biāo)記，如錯(cuò)誤附碼。

1　語料庫的加工處理

1.1　語料庫加工處理的原理

　　并不是說把大量電子文本簡(jiǎn)單堆放在一起就建成了語料庫，一個(gè)語料庫的設(shè)計(jì)和建成總是代表某一具體領(lǐng)域的語言應(yīng)用或滿足相應(yīng)的研究目的。一個(gè)計(jì)算機(jī)語料庫的功能主要和下面三個(gè)因素密切相關(guān)，即庫的規(guī)模、語料的分布和語料的加工深度。因?yàn)閹烊萘康拇笮≈苯佑绊懙浇y(tǒng)計(jì)結(jié)果的可靠性，語料分布的考慮則關(guān)系到統(tǒng)計(jì)結(jié)果的適用范圍，而加工深度則決定了該語料庫能為自然語言處理提供什么樣的知識(shí)。

　　語料庫的應(yīng)用越來越廣泛。90年代開始語料庫的應(yīng)用進(jìn)入了蓬勃發(fā)展的階段。如在機(jī)器翻譯、語音合成與語音識(shí)別、智能搜索方面的應(yīng)用。這些應(yīng)用是離不開對(duì)語料庫的處理和分析，基本處理和分析過程包括以下幾個(gè)步驟：語音處理，指音段分析，主要用于語音識(shí)別和語音合成。正字處理指對(duì)文本中各種非文字符號(hào)、標(biāo)點(diǎn)、大小寫問題等進(jìn)行處理和歧義消除。形態(tài)處理，即詞性指定和標(biāo)注碼。句法處理和語用處理，對(duì)語篇進(jìn)行語義指定和意義解釋。圖1表示出了語料庫的加工過程。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

　　為了從原始語料中得到有用的語言知識(shí)庫，必須對(duì)語料庫進(jìn)行加工。按需要對(duì)語料庫的加工可以從不同層次、不同深度兩個(gè)方面來分析。單語料庫的加工有：詞性標(biāo)注、詞匯語義標(biāo)注、句法標(biāo)注等。

　　在對(duì)大規(guī)模語料的切分和標(biāo)注過程中，可以采用兩種方法：人工標(biāo)注和自動(dòng)處理。自動(dòng)處理的優(yōu)勢(shì)在于它處理速度快、效率高、可以保持較好的一致性。但由于自然語言中存在著大量的歧義現(xiàn)象，而計(jì)算機(jī)自動(dòng)排歧的知識(shí)不完備致使自動(dòng)處理結(jié)果會(huì)有許多錯(cuò)誤，如：將交集型和組合型字段切錯(cuò)，不能正確地選擇合適的詞類標(biāo)記等，從而降低了處理的準(zhǔn)確度。而人工標(biāo)注正好相反。如果參與工作的人的語言學(xué)知識(shí)比較豐富，又有一定的知識(shí)背景，能在切分和標(biāo)注過程中依據(jù)上下文信息做出準(zhǔn)確的判斷，那就很少發(fā)生歧義字段切錯(cuò)或詞類標(biāo)記標(biāo)錯(cuò)的現(xiàn)象。但在大規(guī)模語料的處理過程中，由于各人對(duì)一些概念的認(rèn)識(shí)水平存在差異，即使是同一個(gè)人，在不同的階段某些認(rèn)識(shí)和觀點(diǎn)也會(huì)發(fā)生變化，這樣不可避免的會(huì)使切分和標(biāo)注結(jié)果出現(xiàn)許多不一致現(xiàn)象。而且純粹由人來標(biāo)注，效率不高，其處理時(shí)間也太長(zhǎng)。

　　經(jīng)過標(biāo)注和附碼的語料庫使得語料庫數(shù)據(jù)分析更加系統(tǒng)精確，也便于對(duì)特殊數(shù)據(jù)信息的提取和處理。但是，不經(jīng)任何人工介入的生語料庫同樣具有獨(dú)特的價(jià)值。在語料庫建設(shè)中，一般是保持一個(gè)干凈的生語料庫，而把經(jīng)過標(biāo)注和句法分析的語料另存為一個(gè)子語料庫或者獨(dú)立的版本。

1.2　錄音的加工

　　一般采集的只是生語料，還要對(duì)其進(jìn)行加工，才能成為真正的方言音庫。生語料需要的加工的步驟為：

　　第一，除錄制語音中的首尾噪聲。

　　第二，去除錄音中的靜音部分, 靜音我們定義為：安靜的條件是信號(hào)低于-38dB、長(zhǎng)于140ms；聲音的條件為高于-34dB，語音長(zhǎng)于25ms的信號(hào)。

　　第三，丟棄錄音格式不對(duì)的語音。比如采樣率誤用為8kHZ。語音保存為sfs等其他非wav文件格式等。

　　第四，丟棄錄音質(zhì)量不高的語音。主要涉及：說話人呼吸氣，環(huán)境噪聲，語速過快，，與提問無關(guān)的話，不是要錄的方言，帶有明顯其他方言口音。

　　第五，寬音位標(biāo)注。要求標(biāo)注的寬音位有：元音，擦音，塞音，閉塞（靜音或背景噪聲），元音前響音，元音間響音，元音后響音。這里的響音是指發(fā)音時(shí)氣流從口腔或鼻腔順利流通。

　　第六，確認(rèn)每句話的實(shí)際所屬方言。判斷是否受其他方言的影響，那種方言是何種方言。

　　第七，對(duì)錄下的方言進(jìn)行詳細(xì)的語音標(biāo)注（按國際音標(biāo)或其他公認(rèn)音標(biāo)標(biāo)注）。

　　第八，經(jīng)過上述處理，對(duì)整個(gè)語音庫進(jìn)行語音學(xué)及聲學(xué)統(tǒng)計(jì)分析。

　　此外，還需要對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)算法不是實(shí)時(shí)運(yùn)行的，而是從wav文件中獲取語音采樣，將其分幀并計(jì)算短時(shí)能量和過零率參數(shù)，然后檢測(cè)。這種工作方式被稱為離線處理方法，而實(shí)時(shí)的處理方法是在線的。圖2是無錫話“桌子”的端點(diǎn)檢測(cè)圖樣。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

圖2　無錫話“桌子”的端點(diǎn)檢測(cè)（從上到下依次為：原始語音信號(hào)、短時(shí)能量、過零率）

2　語音數(shù)據(jù)庫的標(biāo)注

2.1　詞性的標(biāo)注

　　詞性標(biāo)注是語料庫加工的基本層次。要進(jìn)行詞性標(biāo)注有標(biāo)注集。如何確定標(biāo)注集？Penn Treebank提供了以下幾點(diǎn)原則：一是可恢復(fù)性,從標(biāo)注符號(hào)能恢復(fù)原詞；二是一致性，一隊(duì)詞中的兩個(gè)不能不同類，即一個(gè)屬于異類，另一個(gè)屬于另一類；三是句法功能,是一個(gè)詞的詞性能正確反映它的句法功能；四是不明確性，某一詞的詞性不明確時(shí)可以給出多個(gè)標(biāo)記。

　　詞性標(biāo)注可以看成是從一種符號(hào)串到另一種符號(hào)串的映射過程，這種過程通過言語模型（言語模型，是指語言學(xué)信息及其處理的形式化）方法實(shí)現(xiàn)。

　　詞類標(biāo)注的作用就是消除句子中詞的語法兼類。能屬于多種詞類的詞，在實(shí)際的語言環(huán)境中只屬于一種詞類，那么在詞類標(biāo)注中指出其實(shí)際環(huán)境的正確類型。詞類的正確標(biāo)注是后續(xù)句法標(biāo)注乃至語義標(biāo)注的前提。詞性標(biāo)注的自動(dòng)實(shí)現(xiàn)是目前語料庫加工的基本步驟。詞性標(biāo)注系統(tǒng)有TAGGIT、Brill的方法、Constraint Grammar System、CLAWS、VOLSUNGA、Xtract等。

　　常見的詞性標(biāo)注方法有以下幾種：基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法（隱馬爾可夫模型和Brill方法相結(jié)合的方法）、應(yīng)用神經(jīng)網(wǎng)絡(luò)方法、應(yīng)用決策歸納示例學(xué)習(xí)方法。

2.2　音段的標(biāo)注

　　音段標(biāo)注是為每一個(gè)音段增加用國際音標(biāo)來表示的音段名稱。國際音標(biāo)IPA是國際通用的標(biāo)點(diǎn)符號(hào)。國際音標(biāo)是以羅馬字母為基礎(chǔ)，再加上一些其他字母組成，但它不能通過計(jì)算機(jī)鍵盤輸入。為此國際上研究了一種與IPA對(duì)應(yīng)的計(jì)算機(jī)可讀的語音學(xué)符號(hào)SAMPA。在1987-1989年，SAMPA首先用于歐洲語言間的通信，如丹麥語、德語、意大利語、法語和英語�，F(xiàn)在已經(jīng)擴(kuò)展到許多語言。并在語言學(xué)標(biāo)記的機(jī)器可讀標(biāo)準(zhǔn)方面開展了非常好的國際合作。SAMPA將IPA映射到ASCII碼的33～127范圍內(nèi)。與編碼一起指導(dǎo)語言的語音標(biāo)記。

　　從圖3，可以看出語音中的靜音和語音、聲母和韻母可以通過短時(shí)能量和短時(shí)平均幅度區(qū)分出來。清音段信號(hào)隨機(jī)性較強(qiáng)，頻頻穿過零點(diǎn)，所以短時(shí)過零率較高。而濁音段的過零率要低一些。短時(shí)能量和短時(shí)平均幅度也包含有清音和濁音的判別信息。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

圖3　沭陽話“上課”的時(shí)域波形圖和過零率圖

（分析工具為SFSWin1.30和Speech Analyzer2.4）

(橫軸都為時(shí)間，上圖縱軸為振幅，下圖縱軸為過零率)

2.3　韻律的標(biāo)注

本文編號(hào)：14527

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.wukwdryxk.cn/kejilunwen/jisuanjikexuelunwen/14527.html

上一篇：京石武基站動(dòng)環(huán)監(jiān)控系統(tǒng)應(yīng)用及故障處理
下一篇：基于計(jì)算機(jī)輔助的臨床護(hù)理體系建立分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究