漢語方言語音數(shù)據(jù)庫的標(biāo)注研究
摘 要:
摘 要:對(duì)語音數(shù)據(jù)庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對(duì)語料庫進(jìn)行統(tǒng)計(jì)的方法一直是目前語音分析和語音技術(shù)的主流;同時(shí),語音的基礎(chǔ)研究,也很少使用實(shí)驗(yàn)室語音進(jìn)行定性分析,而趨向采用大量自然語料的定量統(tǒng)計(jì)分析,所以語音數(shù)據(jù)庫的標(biāo)注顯得尤為重要。
關(guān)鍵詞:
關(guān)鍵詞:語料庫 語音 標(biāo)注 數(shù)據(jù)庫
漢語方言在各個(gè)地方是應(yīng)用比較廣泛的語言,它在發(fā)音、韻律、詞匯及其詞的形態(tài)變化、組織句子結(jié)構(gòu)、文章的構(gòu)成等許多方面都具有各自獨(dú)特的特性。漢語方言語音數(shù)據(jù)庫建設(shè)是漢語方言研究不可缺少的部分。隨著對(duì)漢語方言研究的深入,比如機(jī)器翻譯、語音合成、語音識(shí)別、文字識(shí)別、智能檢索等研究,漢語方言各個(gè)特性的量化描述需求越來越大。正是漢語方言語音數(shù)據(jù)庫,為漢語方言研究提供了確鑿的數(shù)據(jù)。國內(nèi)各種普通話語音數(shù)據(jù)庫有很大的進(jìn)步,并逐漸成熟。漢語方言語音數(shù)據(jù)庫還是寥寥無幾,而且大多數(shù)的研究是從語言學(xué)的角度定性分析和解析,其主要目的是為了語言的共時(shí)研究、語言學(xué)研究以及民族學(xué)研究等等,而從聲學(xué)和物理學(xué)的角度定量分析和解析的研究則比較少。所以,漢語方言語音數(shù)據(jù)庫建設(shè)和研究,有它的歷史價(jià)值和使用價(jià)值。
然而,建立漢語方言語音數(shù)據(jù)庫關(guān)鍵的一個(gè)環(huán)節(jié)就是數(shù)據(jù)庫的標(biāo)注。對(duì)語音庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對(duì)語料庫進(jìn)行統(tǒng)計(jì)的方法一直是目前語音分析和語音技術(shù)的主流;同時(shí),語音的基礎(chǔ)研究,也很少使用實(shí)驗(yàn)室語音進(jìn)行定性分析,而趨向采用大量自然語料的定量統(tǒng)計(jì)分析,所以語音庫標(biāo)注也越來越受到人們的關(guān)注。但是,語音庫的標(biāo)注過程并不是人們所想象的那么簡(jiǎn)單,這本身就是一項(xiàng)研究工作。
根據(jù)編碼標(biāo)注的復(fù)雜程度,可將語音數(shù)據(jù)庫的標(biāo)注細(xì)分為以下幾種情況:加任何處理的純文本語料庫;經(jīng)過格式屬性標(biāo)注的語料庫,如對(duì)段落、字體、字號(hào)進(jìn)行標(biāo)注;對(duì)識(shí)別信息進(jìn)行標(biāo)注,如作者、體裁、語域,以及詞性標(biāo)注;特殊標(biāo)記,如錯(cuò)誤附碼。
1 語料庫的加工處理
1.1 語料庫加工處理的原理
并不是說把大量電子文本簡(jiǎn)單堆放在一起就建成了語料庫,一個(gè)語料庫的設(shè)計(jì)和建成總是代表某一具體領(lǐng)域的語言應(yīng)用或滿足相應(yīng)的研究目的。一個(gè)計(jì)算機(jī)語料庫的功能主要和下面三個(gè)因素密切相關(guān),即庫的規(guī)模、語料的分布和語料的加工深度。因?yàn)閹烊萘康拇笮≈苯佑绊懙浇y(tǒng)計(jì)結(jié)果的可靠性,語料分布的考慮則關(guān)系到統(tǒng)計(jì)結(jié)果的適用范圍,而加工深度則決定了該語料庫能為自然語言處理提供什么樣的知識(shí)。
語料庫的應(yīng)用越來越廣泛。90年代開始語料庫的應(yīng)用進(jìn)入了蓬勃發(fā)展的階段。如在機(jī)器翻譯、語音合成與語音識(shí)別、智能搜索方面的應(yīng)用。這些應(yīng)用是離不開對(duì)語料庫的處理和分析,基本處理和分析過程包括以下幾個(gè)步驟:語音處理,指音段分析,主要用于語音識(shí)別和語音合成。正字處理指對(duì)文本中各種非文字符號(hào)、標(biāo)點(diǎn)、大小寫問題等進(jìn)行處理和歧義消除。形態(tài)處理,即詞性指定和標(biāo)注碼。句法處理和語用處理,對(duì)語篇進(jìn)行語義指定和意義解釋。圖1表示出了語料庫的加工過程。
為了從原始語料中得到有用的語言知識(shí)庫,必須對(duì)語料庫進(jìn)行加工。按需要對(duì)語料庫的加工可以從不同層次、不同深度兩個(gè)方面來分析。單語料庫的加工有:詞性標(biāo)注、詞匯語義標(biāo)注、句法標(biāo)注等。
在對(duì)大規(guī)模語料的切分和標(biāo)注過程中,可以采用兩種方法:人工標(biāo)注和自動(dòng)處理。自動(dòng)處理的優(yōu)勢(shì)在于它處理速度快、效率高、可以保持較好的一致性。但由于自然語言中存在著大量的歧義現(xiàn)象,而計(jì)算機(jī)自動(dòng)排歧的知識(shí)不完備致使自動(dòng)處理結(jié)果會(huì)有許多錯(cuò)誤,如:將交集型和組合型字段切錯(cuò),不能正確地選擇合適的詞類標(biāo)記等,從而降低了處理的準(zhǔn)確度。而人工標(biāo)注正好相反。如果參與工作的人的語言學(xué)知識(shí)比較豐富,又有一定的知識(shí)背景,能在切分和標(biāo)注過程中依據(jù)上下文信息做出準(zhǔn)確的判斷,那就很少發(fā)生歧義字段切錯(cuò)或詞類標(biāo)記標(biāo)錯(cuò)的現(xiàn)象。但在大規(guī)模語料的處理過程中,由于各人對(duì)一些概念的認(rèn)識(shí)水平存在差異,即使是同一個(gè)人,在不同的階段某些認(rèn)識(shí)和觀點(diǎn)也會(huì)發(fā)生變化,這樣不可避免的會(huì)使切分和標(biāo)注結(jié)果出現(xiàn)許多不一致現(xiàn)象。而且純粹由人來標(biāo)注,效率不高,其處理時(shí)間也太長(zhǎng)。
經(jīng)過標(biāo)注和附碼的語料庫使得語料庫數(shù)據(jù)分析更加系統(tǒng)精確,也便于對(duì)特殊數(shù)據(jù)信息的提取和處理。但是,不經(jīng)任何人工介入的生語料庫同樣具有獨(dú)特的價(jià)值。在語料庫建設(shè)中,一般是保持一個(gè)干凈的生語料庫,而把經(jīng)過標(biāo)注和句法分析的語料另存為一個(gè)子語料庫或者獨(dú)立的版本。
1.2 錄音的加工
一般采集的只是生語料,還要對(duì)其進(jìn)行加工,才能成為真正的方言音庫。生語料需要的加工的步驟為:
第一,除錄制語音中的首尾噪聲。
第二,去除錄音中的靜音部分, 靜音我們定義為:安靜的條件是信號(hào)低于-38dB、長(zhǎng)于140ms;聲音的條件為高于-34dB,語音長(zhǎng)于25ms的信號(hào)。
第三,丟棄錄音格式不對(duì)的語音。比如采樣率誤用為8kHZ。語音保存為sfs等其他非wav文件格式等。
第四,丟棄錄音質(zhì)量不高的語音。主要涉及:說話人呼吸氣,環(huán)境噪聲,語速過快,,與提問無關(guān)的話,不是要錄的方言,帶有明顯其他方言口音。
第五,寬音位標(biāo)注。要求標(biāo)注的寬音位有:元音,擦音,塞音,閉塞(靜音或背景噪聲),元音前響音,元音間響音,元音后響音。這里的響音是指發(fā)音時(shí)氣流從口腔或鼻腔順利流通。
第六,確認(rèn)每句話的實(shí)際所屬方言。判斷是否受其他方言的影響,那種方言是何種方言。
第七,對(duì)錄下的方言進(jìn)行詳細(xì)的語音標(biāo)注(按國際音標(biāo)或其他公認(rèn)音標(biāo)標(biāo)注)。
第八,經(jīng)過上述處理,對(duì)整個(gè)語音庫進(jìn)行語音學(xué)及聲學(xué)統(tǒng)計(jì)分析。
此外,還需要對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)算法不是實(shí)時(shí)運(yùn)行的,而是從wav文件中獲取語音采樣,將其分幀并計(jì)算短時(shí)能量和過零率參數(shù),然后檢測(cè)。這種工作方式被稱為離線處理方法,而實(shí)時(shí)的處理方法是在線的。圖2是無錫話“桌子”的端點(diǎn)檢測(cè)圖樣。
圖2 無錫話“桌子”的端點(diǎn)檢測(cè)(從上到下依次為:原始語音信號(hào)、短時(shí)能量、過零率)
2 語音數(shù)據(jù)庫的標(biāo)注
2.1 詞性的標(biāo)注
詞性標(biāo)注是語料庫加工的基本層次。要進(jìn)行詞性標(biāo)注有標(biāo)注集。如何確定標(biāo)注集?Penn Treebank提供了以下幾點(diǎn)原則:一是可恢復(fù)性,從標(biāo)注符號(hào)能恢復(fù)原詞;二是一致性,一隊(duì)詞中的兩個(gè)不能不同類,即一個(gè)屬于異類,另一個(gè)屬于另一類;三是句法功能,是一個(gè)詞的詞性能正確反映它的句法功能;四是不明確性,某一詞的詞性不明確時(shí)可以給出多個(gè)標(biāo)記。
詞性標(biāo)注可以看成是從一種符號(hào)串到另一種符號(hào)串的映射過程,這種過程通過言語模型(言語模型,是指語言學(xué)信息及其處理的形式化)方法實(shí)現(xiàn)。
詞類標(biāo)注的作用就是消除句子中詞的語法兼類。能屬于多種詞類的詞,在實(shí)際的語言環(huán)境中只屬于一種詞類,那么在詞類標(biāo)注中指出其實(shí)際環(huán)境的正確類型。詞類的正確標(biāo)注是后續(xù)句法標(biāo)注乃至語義標(biāo)注的前提。詞性標(biāo)注的自動(dòng)實(shí)現(xiàn)是目前語料庫加工的基本步驟。詞性標(biāo)注系統(tǒng)有TAGGIT、Brill的方法、Constraint Grammar System、CLAWS、VOLSUNGA、Xtract等。
常見的詞性標(biāo)注方法有以下幾種:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法(隱馬爾可夫模型和Brill方法相結(jié)合的方法)、應(yīng)用神經(jīng)網(wǎng)絡(luò)方法、應(yīng)用決策歸納示例學(xué)習(xí)方法。
2.2 音段的標(biāo)注
音段標(biāo)注是為每一個(gè)音段增加用國際音標(biāo)來表示的音段名稱。國際音標(biāo)IPA是國際通用的標(biāo)點(diǎn)符號(hào)。國際音標(biāo)是以羅馬字母為基礎(chǔ),再加上一些其他字母組成,但它不能通過計(jì)算機(jī)鍵盤輸入。為此國際上研究了一種與IPA對(duì)應(yīng)的計(jì)算機(jī)可讀的語音學(xué)符號(hào)SAMPA。在1987-1989年,SAMPA首先用于歐洲語言間的通信,如丹麥語、德語、意大利語、法語和英語,F(xiàn)在已經(jīng)擴(kuò)展到許多語言。并在語言學(xué)標(biāo)記的機(jī)器可讀標(biāo)準(zhǔn)方面開展了非常好的國際合作。SAMPA將IPA映射到ASCII碼的33~127范圍內(nèi)。與編碼一起指導(dǎo)語言的語音標(biāo)記。
從圖3,可以看出語音中的靜音和語音、聲母和韻母可以通過短時(shí)能量和短時(shí)平均幅度區(qū)分出來。清音段信號(hào)隨機(jī)性較強(qiáng),頻頻穿過零點(diǎn),所以短時(shí)過零率較高。而濁音段的過零率要低一些。短時(shí)能量和短時(shí)平均幅度也包含有清音和濁音的判別信息。
圖3 沭陽話“上課”的時(shí)域波形圖和過零率圖
(分析工具為SFSWin1.30和Speech Analyzer2.4)
(橫軸都為時(shí)間,上圖縱軸為振幅,下圖縱軸為過零率)
2.3 韻律的標(biāo)注
本文編號(hào):14527
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/jisuanjikexuelunwen/14527.html