征信系統(tǒng)中實體匹配方法及應(yīng)用研究
發(fā)布時間:2020-04-26 04:02
【摘要】: 實體是指社會經(jīng)濟運行過程中有經(jīng)濟活動能力個體或組織,在征信系統(tǒng)中它可以指稱個人、家庭、企業(yè)、企業(yè)集團等。實體匹配就是判定語法不同的信用信息所描述的實體是否具有相同的語義。征信系統(tǒng)是覆蓋全國每一個有經(jīng)濟活動能力的實體的信用檔案信息系統(tǒng),它通過采集分散在社會不同部門信用信息,并按照信用實體為主題進行歸集和發(fā)布的信息系統(tǒng),為全國每一個有經(jīng)濟活動能力的實體建立其信用檔案。征信系統(tǒng)是社會信用體系的基礎(chǔ)設(shè)施,隨著市場經(jīng)濟的不斷發(fā)展,征信系統(tǒng)在社會經(jīng)濟生活中扮演著越來越重要的角色。 實體匹配是建設(shè)全國統(tǒng)一征信系統(tǒng)的技術(shù)基礎(chǔ)。由于不同數(shù)據(jù)源信用記錄標(biāo)識主鍵不同,加之存在數(shù)據(jù)輸入錯誤、格式、拼寫差異等問題,為了實現(xiàn)征信系統(tǒng)的功能目標(biāo),需要開展大量信用記錄的實體模糊匹配運算。征信系統(tǒng)中實體匹配可以分為三個層次的匹配運算,分別是字段級匹配、記錄級匹配和復(fù)雜結(jié)構(gòu)級匹配。除此之外還需要解決征信系統(tǒng)所特有的匹配數(shù)據(jù)量大,采集數(shù)據(jù)源差別大,范圍廣,不斷擴展等技術(shù)難點問題。 本文以征信系統(tǒng)中實體匹配運算為研究對象,按照從不同數(shù)據(jù)源數(shù)據(jù)特征學(xué)習(xí)相應(yīng)匹配函數(shù)的研究思路,主要進行了以下幾方面研究: (1)研究了自適應(yīng)字段匹配問題,提出了基于關(guān)聯(lián)token的自適應(yīng)字符串相似度計算方法。該算法通過關(guān)聯(lián)token操作集,形式化定義了同音字相似度,提煉不同數(shù)據(jù)源的詞頻與關(guān)聯(lián)操作頻度的數(shù)據(jù)特征,并通過對支持向量機訓(xùn)練,以計算適應(yīng)詞頻、關(guān)聯(lián)類型等數(shù)據(jù)特征的匹配分類及相似度計算函數(shù)。通過實驗驗證與對比分析,說明了該算法對于數(shù)據(jù)源的數(shù)據(jù)質(zhì)量、關(guān)聯(lián)類型等都具有良好的適應(yīng)性。 (2)研究了有標(biāo)識字段的實體信用記錄高效匹配問題,設(shè)計了聯(lián)合分組模型。為了解決大數(shù)據(jù)量實體信用記錄高效匹配問題,通過分組算子抽取了索引和分組運算特征,引入了析取式和析取范式的整體分組式概念,使用多個分組算子聯(lián)合對實體記錄進行分組,設(shè)計了聯(lián)合分組模型,以減少匹配運算中比較次數(shù),提高信用記錄匹配運算的效率。最后使用求解覆蓋集方法,在保證匹配運算精度的前提下,符合不同數(shù)據(jù)源特點的最優(yōu)整體分組式。通過實驗驗證以上方法具有較高的匹配運算效率。 (3)研究了多數(shù)據(jù)源無標(biāo)識字段的實體記錄匹配問題。設(shè)計了半監(jiān)督式基于主動學(xué)習(xí)的實體匹配方法和無監(jiān)督式基于迭代SVM的自動實體匹配方法。其中前者應(yīng)用主動學(xué)習(xí)的思想,首先使用聚類隊列建立多個匹配函數(shù)學(xué)習(xí)機組成學(xué)習(xí)委員會,其次使用匹配熵計算式,由學(xué)習(xí)委員會在候選訓(xùn)練樣本中主動挑選最有利匹配函數(shù)學(xué)習(xí)的實體記錄對,實現(xiàn)對實體記錄對標(biāo)識字段與匹配函數(shù)自主學(xué)習(xí)。后者是利用SVM學(xué)習(xí)機最大化分類超平面與支持向量之間距離的特性,自動學(xué)習(xí)新數(shù)據(jù)源的標(biāo)識字段和匹配函數(shù)。首先使用最近鄰居法自動選擇初始訓(xùn)練樣本集,其次應(yīng)用最大化分類間隔的特點迭代對SVM進行自動訓(xùn)練,使分類超平面逐步逼近匹配實體對與非匹配實體對的分類邊界,實現(xiàn)自動的實體匹配函數(shù)的學(xué)習(xí)。通過實驗分析了主動學(xué)習(xí)實體匹配方法和迭代SVM自動實體匹配方法的優(yōu)點及限制條件。 (4)研究了復(fù)雜數(shù)據(jù)結(jié)構(gòu)的記錄簇實體匹配問題。根據(jù)記錄簇實體的特殊的數(shù)據(jù)結(jié)構(gòu),應(yīng)用賦權(quán)二部圖理論建立了規(guī)范的記錄簇實體匹配的數(shù)學(xué)模型。為了實現(xiàn)高效地記錄簇實體匹配運算,設(shè)計了記錄簇實體上下界匹配算法,使用快速推導(dǎo)出匹配實體閾值的上下界,減少實體所屬子記錄最大權(quán)匹配的計算次數(shù)。通過數(shù)據(jù)實驗,驗證了本文提出的匹配模型與方法可以有效提高記錄簇實體匹配精度和效率。 (5)研究了復(fù)雜數(shù)據(jù)結(jié)構(gòu)的XML半結(jié)構(gòu)化實體匹配問題,通過計算XML文本中不同類型的屬性節(jié)點在父節(jié)點中的權(quán)重,設(shè)定匹配實體相似度閾值,求取XML轉(zhuǎn)換規(guī)則和實體匹配函數(shù),進行XML實體的匹配運算。使用實驗數(shù)據(jù)說明該方法具有良好的匹配分類效率。 本文是在中國人民銀行負責(zé)建設(shè)的全國集中統(tǒng)一的企業(yè)與個人征信系統(tǒng)的基礎(chǔ)上,通過總結(jié)其實體匹配運算所面臨的技術(shù)瓶頸,分析目前方法中存在的缺陷,提煉,抽象出具體的研究問題。本文提出的實體匹配方法,目前多數(shù)都已在個人與企業(yè)征信系統(tǒng)中投用,解決了征信系統(tǒng)建設(shè)過程中遇到的多數(shù)據(jù)源、海量數(shù)量、復(fù)雜結(jié)構(gòu)條件下的實體匹配技術(shù)難點問題,取得了實驗結(jié)果基本一致的良好使用效果。目前企業(yè)征信系統(tǒng)實現(xiàn)信貸、結(jié)算賬戶、社保繳費、環(huán)境違法信息等15大類共882家機構(gòu)的信用信息采集與匹配運算。個人征信系統(tǒng)實現(xiàn)信貸、公積金繳存、養(yǎng)老保險、電信欠費等11大類共702家機構(gòu)的信用信息采集與匹配運算,基本實現(xiàn)了全面統(tǒng)一的實體信用信息歸集整理的征信系統(tǒng)建設(shè)目標(biāo)。
【圖文】:
的字符位置,它們序列的長度也為n,例如tZ、CxZ、CyZ表示的就是X中第Cx:個token與Y中第CyZ個t。ke存在tZ關(guān)聯(lián)關(guān)系,,也就是它們通過t:可以相互轉(zhuǎn)換。在此通過兩個字符串的關(guān)聯(lián)關(guān)系圖來說明關(guān)聯(lián)操作集定義,圖3.2是“上海市浦東新區(qū)卡園二路108號”與“蒲東區(qū)卡園2路108”兩個地址字符串的關(guān)聯(lián)關(guān)系圖與關(guān)聯(lián)操作集示例。通過圖3.2可以看出,關(guān)聯(lián)操作集是由一組關(guān)聯(lián)操作組成,每個關(guān)聯(lián)操作在字符串的一對token間建立映射關(guān)系,通過關(guān)聯(lián)操作集,字符串可以相互轉(zhuǎn)換。利用關(guān)聯(lián)操作集定義字符串之間關(guān)系,使用規(guī)范的數(shù)據(jù)描述相似程度。但是,我們可以明顯看出,對于任意兩個字符串,可以建立多個關(guān)聯(lián)操作集,每個關(guān)聯(lián)操作集代表了一種轉(zhuǎn)換方式。因此對于字符串相似度值的計算轉(zhuǎn)換為建立關(guān)聯(lián)操作集和為不同的關(guān)聯(lián)操作賦予適當(dāng)?shù)臋?quán)重值,以便計算出可以真正反映出實體匹配關(guān)系的屬性字符串的相似度值。也就是對于字符串對X和Y,通過關(guān)聯(lián)操作集T的映射,得到它們的相似度值Z
3.5.3實驗結(jié)果與分析使用以上四種方法應(yīng)用于企業(yè)信貸數(shù)據(jù)的信用實體屬性字符串的相似度計算,評價指標(biāo)的結(jié)果如圖3.4所示。從圖3.4實驗結(jié)果來看,四種字符串相似度計算方法在數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量較好的情況下。表現(xiàn)出了較好的準確度,這主要是因為與個人實體相比,企業(yè)實體的數(shù)量少,所以企業(yè)實體的信用數(shù)據(jù)是三類測試數(shù)據(jù)中數(shù)據(jù)量最小的。同時它采集自全國性商業(yè)銀行,使用接口程序自動從業(yè)務(wù)數(shù)據(jù)中生成上報的信用數(shù)據(jù),銀行業(yè)務(wù)系統(tǒng)的辦理程序較為規(guī)范,所以數(shù)據(jù)質(zhì)量較好,較少出現(xiàn)縮寫詞、同音字輸入錯誤等問題。從算法的精確度分析,還可以發(fā)現(xiàn)Bigram法的精確度略好于Levenshtein法,這是因為Bigr別衛(wèi)法是基于token的字符串相似度算法,它適用于較長字符串的相似度計算,而企業(yè)征信數(shù)據(jù)的屬性字符串的長度一般都較長
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2010
【分類號】:F832.4;F224
本文編號:2641064
【圖文】:
的字符位置,它們序列的長度也為n,例如tZ、CxZ、CyZ表示的就是X中第Cx:個token與Y中第CyZ個t。ke存在tZ關(guān)聯(lián)關(guān)系,,也就是它們通過t:可以相互轉(zhuǎn)換。在此通過兩個字符串的關(guān)聯(lián)關(guān)系圖來說明關(guān)聯(lián)操作集定義,圖3.2是“上海市浦東新區(qū)卡園二路108號”與“蒲東區(qū)卡園2路108”兩個地址字符串的關(guān)聯(lián)關(guān)系圖與關(guān)聯(lián)操作集示例。通過圖3.2可以看出,關(guān)聯(lián)操作集是由一組關(guān)聯(lián)操作組成,每個關(guān)聯(lián)操作在字符串的一對token間建立映射關(guān)系,通過關(guān)聯(lián)操作集,字符串可以相互轉(zhuǎn)換。利用關(guān)聯(lián)操作集定義字符串之間關(guān)系,使用規(guī)范的數(shù)據(jù)描述相似程度。但是,我們可以明顯看出,對于任意兩個字符串,可以建立多個關(guān)聯(lián)操作集,每個關(guān)聯(lián)操作集代表了一種轉(zhuǎn)換方式。因此對于字符串相似度值的計算轉(zhuǎn)換為建立關(guān)聯(lián)操作集和為不同的關(guān)聯(lián)操作賦予適當(dāng)?shù)臋?quán)重值,以便計算出可以真正反映出實體匹配關(guān)系的屬性字符串的相似度值。也就是對于字符串對X和Y,通過關(guān)聯(lián)操作集T的映射,得到它們的相似度值Z
3.5.3實驗結(jié)果與分析使用以上四種方法應(yīng)用于企業(yè)信貸數(shù)據(jù)的信用實體屬性字符串的相似度計算,評價指標(biāo)的結(jié)果如圖3.4所示。從圖3.4實驗結(jié)果來看,四種字符串相似度計算方法在數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量較好的情況下。表現(xiàn)出了較好的準確度,這主要是因為與個人實體相比,企業(yè)實體的數(shù)量少,所以企業(yè)實體的信用數(shù)據(jù)是三類測試數(shù)據(jù)中數(shù)據(jù)量最小的。同時它采集自全國性商業(yè)銀行,使用接口程序自動從業(yè)務(wù)數(shù)據(jù)中生成上報的信用數(shù)據(jù),銀行業(yè)務(wù)系統(tǒng)的辦理程序較為規(guī)范,所以數(shù)據(jù)質(zhì)量較好,較少出現(xiàn)縮寫詞、同音字輸入錯誤等問題。從算法的精確度分析,還可以發(fā)現(xiàn)Bigram法的精確度略好于Levenshtein法,這是因為Bigr別衛(wèi)法是基于token的字符串相似度算法,它適用于較長字符串的相似度計算,而企業(yè)征信數(shù)據(jù)的屬性字符串的長度一般都較長
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2010
【分類號】:F832.4;F224
【引證文獻】
相關(guān)博士學(xué)位論文 前1條
1 白云峰;金融領(lǐng)域信用信息服務(wù)體系構(gòu)建與運行機制研究[D];吉林大學(xué);2011年
相關(guān)碩士學(xué)位論文 前1條
1 袁菲;電子商務(wù)公共服務(wù)平臺中征信模型的構(gòu)建與應(yīng)用[D];東華大學(xué);2011年
本文編號:2641064
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/bankxd/2641064.html
最近更新
教材專著