基于電子病歷數(shù)據(jù)的疾病預(yù)測模型構(gòu)建研究
本文選題:數(shù)據(jù)挖掘 切入點(diǎn):知識發(fā)現(xiàn) 出處:《吉林大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:目的:本研究從醫(yī)學(xué)信息學(xué)的視角出發(fā),以搭建疾病預(yù)測模型構(gòu)建策略為目的,探究海量異構(gòu)的電子病歷數(shù)據(jù)中隱性知識到顯性知識的發(fā)現(xiàn)途徑。同時,進(jìn)行糖尿病視網(wǎng)膜病變預(yù)測模型構(gòu)建的實證研究,論證理論策略的科學(xué)性、合理性、可操作性、可拓展性,并為疾病的預(yù)防、診斷、控制、治療提供決策支持。方法:首先通過文獻(xiàn)調(diào)研綜述國內(nèi)外該領(lǐng)域的研究現(xiàn)狀,再以知識發(fā)現(xiàn)、信息鏈、決策支持理論為指導(dǎo),探究疾病預(yù)測模型構(gòu)建策略。然后,利用國家科技資源平臺之一的人口健康分平臺,提供的糖尿病患者的診療數(shù)據(jù)集進(jìn)行實證研究。在實證研究過程中,數(shù)據(jù)預(yù)處理過程分析處理缺失數(shù)據(jù),采用分層均值填補(bǔ)法,對目標(biāo)數(shù)據(jù)集中的缺失數(shù)據(jù)進(jìn)行先分層再填補(bǔ);數(shù)據(jù)降維階段,利用主成分分析法提取特征根大于1的因子、累計貢獻(xiàn)率大于85%的因子及l(fā)ogistic回歸方法提取差異有顯著性的因子分別進(jìn)行降維,選取特征向量;預(yù)測模型構(gòu)建階段,首先平衡數(shù)據(jù)集并確定基線精度,以決策樹算法構(gòu)建預(yù)測模型,以logistic回歸算法、支持向量機(jī)、樸素貝葉斯、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)算法構(gòu)建對照實驗?zāi)P。最?根據(jù)查準(zhǔn)率、召回率、正確率、F值、ROC曲線下面積、Kappa值綜合評價所構(gòu)建預(yù)測模型的效果。結(jié)果:⑴在知識發(fā)現(xiàn)、信息鏈、決策支持理論的指導(dǎo)下,從數(shù)據(jù)集成與清洗、數(shù)據(jù)填補(bǔ)與降維、模型構(gòu)建與評價等環(huán)節(jié)出發(fā),制定了基于醫(yī)療大數(shù)據(jù)的疾病預(yù)測模型構(gòu)建策略;⑵缺失數(shù)據(jù)填補(bǔ)階段,制定了缺失數(shù)據(jù)填補(bǔ)方法,先將目標(biāo)數(shù)據(jù)按不同性別、不同年齡段是否患病劃分為多個子集,通過X2檢驗后得到目標(biāo)數(shù)據(jù)集在不同性別及不同年齡段上是否患病的差異具有顯著性。因此,將數(shù)據(jù)集按照性別、年齡段、是否患病進(jìn)行分層,再利用分層均值填補(bǔ)法進(jìn)行填補(bǔ);⑶數(shù)據(jù)降維階段,用同種方法分析三種降維數(shù)據(jù)集和未降維原始數(shù)據(jù)集,經(jīng)方差分析發(fā)現(xiàn)四種結(jié)果差異具有顯著性,且第一種降維方法得到的模型準(zhǔn)確率更高,預(yù)測效果更好;⑷預(yù)測模型構(gòu)建及評價階段,經(jīng)SMOTE方法對分類不平衡的未降維數(shù)據(jù)進(jìn)行平衡,并確定預(yù)測模型基線精度為71.9166%。以第一種降維方法處理后的數(shù)據(jù)集為研究對象,利用決策樹算法構(gòu)建預(yù)測模型,得到模型的真陽性率(TP)為0.975、假陽性率(FP)為0.045、查準(zhǔn)率(Precision)為0.974、召回率(Recall)為0.975、F值(F-Measure)為0.974、ROC曲線下面積(ROC Area)為0.975,一致性檢驗(Kappa)值為0.936;⑸對照試驗?zāi)P驮u價階段,選擇logistic回歸、支持向量機(jī)、樸素貝葉斯、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)構(gòu)建對照試驗?zāi)P?經(jīng)方差分析得到對照實驗?zāi)P徒Y(jié)果與決策樹算法結(jié)果具有顯著性差異,再經(jīng)組間兩兩多重比較,得到?jīng)Q策樹算法效果更好。結(jié)論:⑴理論研究中,制定了疾病預(yù)測模型構(gòu)建策略,該策略構(gòu)建了有效的數(shù)據(jù)填補(bǔ)方案,選擇出最優(yōu)的數(shù)據(jù)降維方法,能靈活高效的指導(dǎo)海量異構(gòu)電子病歷數(shù)據(jù)挖掘的過程,具體環(huán)節(jié)包括:數(shù)據(jù)集成與整合、清洗與規(guī)范化、缺失值處理、數(shù)據(jù)篩選與降維、數(shù)據(jù)平衡、模型構(gòu)建與評價等過程。⑵實證研究結(jié)果契合理論策略的流程和原理,預(yù)測模型經(jīng)一系列指標(biāo)評價及對照試驗?zāi)P偷尿炞C,得到了效果最優(yōu)的預(yù)測模型。證明基于電子病歷數(shù)據(jù)的疾病預(yù)測模型構(gòu)建策略科學(xué)、合理、有效,該策略能夠為醫(yī)學(xué)信息知識發(fā)現(xiàn)、整合利用、決策支持提供參考。
[Abstract]:......
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13;R197.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 石珂;張悅之;謝琳;游志鵬;周悅;汪昌運(yùn);;負(fù)性調(diào)節(jié)葡萄糖轉(zhuǎn)運(yùn)對糖尿病小鼠視網(wǎng)膜微血管病變的抑制作用[J];第二軍醫(yī)大學(xué)學(xué)報;2015年02期
2 王興木;尤巧英;;Ang-2/Tie、VEGF與2型糖尿病視網(wǎng)膜病變關(guān)系的研究[J];中華全科醫(yī)學(xué);2014年09期
3 張建麗;;醛糖還原酶基因啟動子區(qū)C(-106)T多態(tài)性與2型糖尿病視網(wǎng)膜病變的相關(guān)性研究[J];山東醫(yī)學(xué)高等?茖W(xué)校學(xué)報;2014年04期
4 王沖;王艷麗;蔡安季;任亞琳;;MMP-9與糖尿病視網(wǎng)膜病變患者血清中果糖胺的關(guān)聯(lián)性[J];國際眼科雜志;2014年05期
5 黃瓊刁;鄧萬溪;黃欽展;林明欣;;糖尿病主要并發(fā)癥年齡與體質(zhì)之相關(guān)性研究[J];世界中醫(yī)藥;2013年03期
6 呂佳;蔡春友;魏鳳江;張紅;林靜娜;韓鴻玲;陳莉明;李衛(wèi)東;;TOX和SMAD3基因多態(tài)性與中國漢族人群2型糖尿病患者微血管病變的易感性相關(guān)[J];天津醫(yī)科大學(xué)學(xué)報;2013年01期
7 張媛媛;張日華;杜新麗;薛一;黃瓊;劉夢蘭;劉云;;血清尿酸水平與糖尿病各代謝因子的相關(guān)性研究[J];南京醫(yī)科大學(xué)學(xué)報(自然科學(xué)版);2013年01期
8 王庭俊;王中心;嚴(yán)孫杰;陳純嫻;;不同性別2型糖尿病患者血脂、血壓與骨質(zhì)疏松的關(guān)系[J];中華高血壓雜志;2012年12期
9 楊維娜;王璇;藍(lán)茜;李s,
本文編號:1570727
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/1570727.html