基于深度學習的數(shù)字取證中文件碎片類型檢測算法研究
發(fā)布時間:2020-10-30 12:45
數(shù)字取證是信息安全領(lǐng)域的重要研究內(nèi)容之一,并廣泛應(yīng)用于刑偵取證和司法取證等領(lǐng)域。在刑偵取證領(lǐng)域中,需要提取嫌疑人的各類圖片、音頻、文字等數(shù)字化的文件用于對嫌疑人的犯罪事實的判別。然而刑偵取證和司法取證過程中的數(shù)字信息往往是不完整或者被惡意損壞的,高效的雕復這些文件的重要前提就是正確地檢測文件碎片類型。提高文件碎片檢測準確率,進而就能提高文件雕復的速度,從而優(yōu)化數(shù)字取證的過程。然而,數(shù)字取證中文件碎片類型檢測算法的研究,存在兩個主要難點問題,其一是由于嫌疑人的惡意破壞或篡改,使得原始文件常常丟失文件元信息,使文件碎片類型檢測的準確率降低;其二是壓縮或者復合的高熵文件類型具有高度相似的統(tǒng)計學特征,使類型檢測難度加大。本文針對上述兩個難點問題,提出了基于深度學習的數(shù)字取證中文件碎片類型檢測算法。傳統(tǒng)的機器學習,通過人工提取N-Gram,香農(nóng)熵或漢明權(quán)重等特征來實現(xiàn)文件碎片類型檢測。由于這些方法在特征提取中更偏向于統(tǒng)計學特征,對結(jié)構(gòu)特征考慮較少,故其文件碎片類型檢測中的準確率并不高。本文首先對公共數(shù)據(jù)集進行去除文件元信息的預(yù)處理,使原始數(shù)據(jù)集的類型檢測更具有挑戰(zhàn)性,并復現(xiàn)了基于人工特征提取與支持向量機相結(jié)合的算法對文件碎片進行類型檢測。隨后提出了一種基于文件碎片灰度圖像轉(zhuǎn)換和深度學習的新方法,將二進制數(shù)據(jù)映射到圖像空間中為了提取更多的隱藏特征,從而提高分類的準確性。受益于多層特征映射的優(yōu)越,我們的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可通過神經(jīng)元之間的非線性連接提取近十萬個特征。本文將提出的基于數(shù)字圖像灰度轉(zhuǎn)化和深度學習的文件碎片類型檢測算法在公共數(shù)據(jù)集Gov Docs上進行了訓練和測試,最終取得了良好的實驗結(jié)果。
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.41;D918
【部分圖文】:
在本文的 2.4.1 小節(jié)中,就 N-gram 與 Unigram,Bigram 進行過詳細介紹,故本章不進行重復介紹。由于本文中 Unigram 含有82 = 256個特征,Bigram 含有162 = 655536 個特征,如果繼續(xù)加入 Trigram 會使特征向量過于稀疏,故本文提取 Unigram+Bigram 的特征向量作為支持向量機學習的特征值,如圖 3-2 所示,“FF”即為 Unigram,而“0B 0D”為 Bigram。
不同核函數(shù)不同數(shù)據(jù)集數(shù)量的準確率
不同核函數(shù)不同數(shù)據(jù)集時間對比圖
【參考文獻】
本文編號:2862494
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.41;D918
【部分圖文】:
在本文的 2.4.1 小節(jié)中,就 N-gram 與 Unigram,Bigram 進行過詳細介紹,故本章不進行重復介紹。由于本文中 Unigram 含有82 = 256個特征,Bigram 含有162 = 655536 個特征,如果繼續(xù)加入 Trigram 會使特征向量過于稀疏,故本文提取 Unigram+Bigram 的特征向量作為支持向量機學習的特征值,如圖 3-2 所示,“FF”即為 Unigram,而“0B 0D”為 Bigram。
不同核函數(shù)不同數(shù)據(jù)集數(shù)量的準確率
不同核函數(shù)不同數(shù)據(jù)集時間對比圖
【參考文獻】
相關(guān)期刊論文 前2條
1 曹鼎;羅軍勇;;改進的基于內(nèi)容的文件類型識別算法[J];計算機工程與設(shè)計;2011年12期
2 曹鼎;羅軍勇;尹美娟;;基于變長元組的文件類型識別算法[J];計算機應(yīng)用;2011年07期
本文編號:2862494
本文鏈接:http://www.wukwdryxk.cn/shekelunwen/gongan/2862494.html
教材專著