基于深度學習的數(shù)字取證中文件碎片類型檢測算法研究

發(fā)布時間：2020-10-30 12:45

　　數(shù)字取證是信息安全領(lǐng)域的重要研究內(nèi)容之一,并廣泛應(yīng)用于刑偵取證和司法取證等領(lǐng)域。在刑偵取證領(lǐng)域中,需要提取嫌疑人的各類圖片、音頻、文字等數(shù)字化的文件用于對嫌疑人的犯罪事實的判別。然而刑偵取證和司法取證過程中的數(shù)字信息往往是不完整或者被惡意損壞的,高效的雕復這些文件的重要前提就是正確地檢測文件碎片類型。提高文件碎片檢測準確率,進而就能提高文件雕復的速度,從而優(yōu)化數(shù)字取證的過程。然而,數(shù)字取證中文件碎片類型檢測算法的研究,存在兩個主要難點問題,其一是由于嫌疑人的惡意破壞或篡改,使得原始文件常常丟失文件元信息,使文件碎片類型檢測的準確率降低;其二是壓縮或者復合的高熵文件類型具有高度相似的統(tǒng)計學特征,使類型檢測難度加大。本文針對上述兩個難點問題,提出了基于深度學習的數(shù)字取證中文件碎片類型檢測算法。傳統(tǒng)的機器學習,通過人工提取N-Gram,香農(nóng)熵或漢明權(quán)重等特征來實現(xiàn)文件碎片類型檢測。由于這些方法在特征提取中更偏向于統(tǒng)計學特征,對結(jié)構(gòu)特征考慮較少,故其文件碎片類型檢測中的準確率并不高。本文首先對公共數(shù)據(jù)集進行去除文件元信息的預(yù)處理,使原始數(shù)據(jù)集的類型檢測更具有挑戰(zhàn)性,并復現(xiàn)了基于人工特征提取與支持向量機相結(jié)合的算法對文件碎片進行類型檢測。隨后提出了一種基于文件碎片灰度圖像轉(zhuǎn)換和深度學習的新方法,將二進制數(shù)據(jù)映射到圖像空間中為了提取更多的隱藏特征,從而提高分類的準確性。受益于多層特征映射的優(yōu)越,我們的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可通過神經(jīng)元之間的非線性連接提取近十萬個特征。本文將提出的基于數(shù)字圖像灰度轉(zhuǎn)化和深度學習的文件碎片類型檢測算法在公共數(shù)據(jù)集Gov Docs上進行了訓練和測試,最終取得了良好的實驗結(jié)果。
【學位單位】：哈爾濱工業(yè)大學
【學位級別】：碩士
【學位年份】：2018
【中圖分類】：TP391.41;D918
【部分圖文】：

示例,特征向量,小節(jié),支持向量機

在本文的 2.4.1 小節(jié)中，就 N-gram 與 Unigram，Bigram 進行過詳細介紹，故本章不進行重復介紹。由于本文中 Unigram 含有82 = 256個特征，Bigram 含有162 = 655536 個特征，如果繼續(xù)加入 Trigram 會使特征向量過于稀疏，故本文提取 Unigram+Bigram 的特征向量作為支持向量機學習的特征值，如圖 3-2 所示，“FF”即為 Unigram，而“0B 0D”為 Bigram。

核函數(shù),準確率,數(shù)據(jù)集,現(xiàn)實環(huán)境

不同核函數(shù)不同數(shù)據(jù)集數(shù)量的準確率

數(shù)據(jù)集,核函數(shù),準確率

不同核函數(shù)不同數(shù)據(jù)集時間對比圖
【參考文獻】

相關(guān)期刊論文前2條

1 曹鼎;羅軍勇;;改進的基于內(nèi)容的文件類型識別算法[J];計算機工程與設(shè)計;2011年12期

2 曹鼎;羅軍勇;尹美娟;;基于變長元組的文件類型識別算法[J];計算機應(yīng)用;2011年07期

本文編號：2862494

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.wukwdryxk.cn/shekelunwen/gongan/2862494.html

上一篇：X市消防隊伍服務(wù)能力提升研究
下一篇：論計算機犯罪犯罪及其防治

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于深度學習的數(shù)字取證中文件碎片類型檢測算法研究