面向大規(guī)模數(shù)據(jù)的多視角K-means聚類算法的研究
本文選題:大規(guī)模多視角數(shù)據(jù) 切入點(diǎn):多視角聚類 出處:《鄭州大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:在過去的幾十年,收集了越來越多的多源數(shù)據(jù)或者多視角數(shù)據(jù),每個(gè)視角具有不同的數(shù)據(jù)特征來表示數(shù)據(jù)。傳統(tǒng)的聚類算法在處理聚類分析問題時(shí)已經(jīng)顯示出它的不足,多視角聚類方法便應(yīng)運(yùn)而生,F(xiàn)有的多視角聚類算法分為三類,即:協(xié)同聚類算法、基于多核的聚類算法以及基于子空間的多視角聚類算法。但是,隨著數(shù)據(jù)量的爆炸式增長,越來越多的大規(guī)模多視角數(shù)據(jù)涌現(xiàn),亟待人們?nèi)ネ诰蛱幚怼,F(xiàn)有的處理大規(guī)模數(shù)據(jù)的方法主要有四類,即:基于抽樣的方法、基于聚類特征選擇的方法、基于約束信息的半監(jiān)督聚類算法和基于分布式平臺(tái)的聚類算法。這些方法都是針對大規(guī)模單視角數(shù)據(jù)的聚類算法,不能直接用來解決大規(guī)模多視角聚類的問題。本文針對多視角聚類問題面臨的這種狀況進(jìn)行了相關(guān)的研究。論文的主要工作和創(chuàng)新如下:1、對面向大規(guī)模數(shù)據(jù)的單視角聚類和現(xiàn)有的多視角聚類算法進(jìn)行了歸納總結(jié),指出了其原理和適用范圍。并特別指出現(xiàn)有的多視角聚類算法在處理大規(guī)模數(shù)據(jù)方面存在的不足。2、針對現(xiàn)有多視角聚類在處理大規(guī)模數(shù)據(jù)方面存在的不足,提出了一種面向大規(guī)模數(shù)據(jù)的多視角K-means聚類算法(Multi-view K-means Clustering Algorithm on Large Data,LKMC)。該算法使用l_(1,2)結(jié)構(gòu)化稀疏誘導(dǎo)范數(shù)對目標(biāo)函數(shù)優(yōu)化,在對數(shù)據(jù)均勻分塊的基礎(chǔ)上,對每個(gè)數(shù)據(jù)塊進(jìn)行多視角聚類,并計(jì)算其中心,然后對中心再進(jìn)行多視角聚類從而得到最終結(jié)果。該算法具有對初始點(diǎn)的選擇不敏感的特點(diǎn)且能處理大規(guī)模數(shù)據(jù)集。實(shí)驗(yàn)驗(yàn)證了其有效性。
[Abstract]:In the past few decades, more and more data collected multi-source and multi view data, each data perspective has different features to represent the data. The traditional clustering algorithm in clustering analysis problem processing has shown its shortcomings, multi view clustering method comes into being. The existing multi view clustering algorithm is divided into three class, namely: collaborative clustering algorithm, clustering algorithm based on multi core and multi view clustering algorithm based on subspace. However, with the explosive growth of data, large-scale multi view data more and more urgent for people to emerge, mining method to deal with large-scale data processing. There are four main categories, namely: sampling the method based on Clustering method based on feature selection, clustering algorithm based on semi supervised clustering algorithm based on constraint information and distributed platform. These methods are based on the number of large-scale single view According to the clustering algorithm, which can not be used to solve large-scale multi view clustering problem. Researches the situation according to the multi view clustering problem. The main work and innovation are as follows: 1, opposite to multi view clustering algorithm in single view clustering large-scale data and existing were summarized, pointed out. The principle and application scope. And especially pointed out that the shortcomings of.2 multi view clustering algorithm existing in large-scale data processing, aiming at the problems in large-scale data processing of existing multi view clustering, is proposed for large-scale data multi view clustering algorithm K-means (Multi-view K-means Clustering Algorithm on Large Data, LKMC). The algorithm uses l_ (1,2) structured sparse induced norm to optimize the objective function, based on the uniform data blocks, for each block of data. Multi angle clustering is performed and the center is calculated. Then the center is clustered with multi view to get the final result. The algorithm has the characteristics of insensitivity to the initial point selection and can handle large scale data set. The validity of the algorithm is verified by experiments.
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張艷寧,趙榮椿,梁怡;一種有效的大規(guī)模數(shù)據(jù)的分類方法[J];電子學(xué)報(bào);2002年10期
2 姜英姿;;大規(guī)模數(shù)據(jù)的計(jì)算機(jī)處理技術(shù)[J];徐州工程學(xué)院學(xué)報(bào);2005年05期
3 劉忠寶;趙文娟;;面向大規(guī)模數(shù)據(jù)的模糊支持向量數(shù)據(jù)描述[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期
4 牛新征;佘X;;面向大規(guī)模數(shù)據(jù)的快速并行聚類劃分算法研究[J];計(jì)算機(jī)科學(xué);2012年01期
5 汪西莉,劉芳,焦李成;基于大規(guī)模數(shù)據(jù)的支撐矢量機(jī)的訓(xùn)練和分類[J];西安電子科技大學(xué)學(xué)報(bào);2002年01期
6 杜奕強(qiáng);;利用廉價(jià)計(jì)算機(jī)實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理的技術(shù)研究與實(shí)現(xiàn)[J];自動(dòng)化與信息工程;2014年01期
7 劉光明;周越;張瑞虹;白瑞俊;;云存儲(chǔ)的關(guān)鍵技術(shù)與應(yīng)用探討[J];中國高新技術(shù)企業(yè);2012年30期
8 諶超;強(qiáng)保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學(xué)學(xué)報(bào);2012年04期
9 劉春艷;;基于云的招生系統(tǒng)研究與設(shè)計(jì)[J];電子技術(shù)與軟件工程;2013年13期
10 蔡秋茹;柳益君;羅燁;朱廣萍;葉飛躍;;基于K-means聚類的電信企業(yè)客戶分群決策[J];江南大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
相關(guān)會(huì)議論文 前3條
1 徐健;陳光喜;;一種基于優(yōu)化處理較大規(guī)模數(shù)據(jù)的支持向量分類機(jī)[A];第八屆中國青年運(yùn)籌信息管理學(xué)者大會(huì)論文集[C];2006年
2 楊青;劉曄;張東旭;劉暢;;快速查找最優(yōu)初始聚類數(shù)K的改進(jìn)K-means算法[A];中國自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)A卷[C];2011年
3 陳磊;胡佳敏;嚴(yán)華;;K-means算法在散貨船代貨運(yùn)系統(tǒng)中的應(yīng)用[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊)[C];2009年
相關(guān)重要報(bào)紙文章 前2條
1 王麗;為大規(guī)模數(shù)據(jù)中心建設(shè)保駕護(hù)航[N];中國經(jīng)營報(bào);2005年
2 ;戴爾務(wù)實(shí)推動(dòng)云計(jì)算發(fā)展[N];網(wǎng)絡(luò)世界;2010年
相關(guān)博士學(xué)位論文 前2條
1 黃成泉;大規(guī)模數(shù)據(jù)的多視角、多任務(wù)分類/聚類方法及應(yīng)用研究[D];江南大學(xué);2016年
2 金冉;面向大規(guī)模數(shù)據(jù)的聚類算法研究及應(yīng)用[D];東華大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 郭亞銳;面向大規(guī)模數(shù)據(jù)的多視角K-means聚類算法的研究[D];鄭州大學(xué);2017年
2 馬翠云;基于HBase的大規(guī)模數(shù)據(jù)存儲(chǔ)解決方案的設(shè)計(jì)和實(shí)現(xiàn)[D];山東大學(xué);2015年
3 周釗澤;面向大規(guī)模數(shù)據(jù)的局部在線學(xué)習(xí)[D];中山大學(xué);2015年
4 田大鑫;基于GIS的大規(guī)模數(shù)據(jù)下K優(yōu)路徑規(guī)劃算法的研究與實(shí)現(xiàn)[D];北京理工大學(xué);2016年
5 楊婷;Web頁面中的大規(guī)模數(shù)據(jù)折線圖優(yōu)化方法研究[D];浙江大學(xué);2017年
6 陳智;基于K-means聚類算法的機(jī)會(huì)網(wǎng)絡(luò)群組移動(dòng)模型及其長相關(guān)性研究[D];湘潭大學(xué);2015年
7 許允棟;K-means聚類算法的改進(jìn)與應(yīng)用[D];廣西師范大學(xué);2015年
8 丁斌;基于布谷鳥算法的K-means聚類挖掘算法研究[D];合肥工業(yè)大學(xué);2015年
9 賀艷芳;熵加權(quán)多視角核k-means聚類算法的研究[D];鄭州大學(xué);2016年
10 陳克;基于K-means算法的CSS Sprites圖片合成技術(shù)的研究[D];東北師范大學(xué);2016年
,本文編號(hào):1623085
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/1623085.html