基于Spark的聚類算法實(shí)現(xiàn)與應(yīng)用
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1Hadoop生態(tài)系統(tǒng)
.4.1Hadoop計(jì)算框架分析(1)Hadoop概況Hadoop是由Apache基金會受GoogleLab的Map/Reduce和GFS(GoogleFileSyste啟發(fā)所開發(fā)的,允許用戶在事先不了解分布式底層詳細(xì)結(jié)構(gòu)的基礎(chǔ)上開發(fā)分布式應(yīng)用程以通過....
圖2.2Spark計(jì)算模型
是多個dataset片段,它們分別運(yùn)行在不同的集群節(jié)點(diǎn)上可被同時并行處理。實(shí)際上Spark并行框架計(jì)算流程就是通過待處理數(shù)據(jù)創(chuàng)建RDD、轉(zhuǎn)化成新的RDD和調(diào)用RDD行動操作求值得到結(jié)果[47]。RDD支持兩種操作類型:轉(zhuǎn)化(transformation)和行動....
圖3.1核心對象示例
高密度相連的點(diǎn)的最大集合。該算法能夠?qū)⒏呙茉肼暋钡臄?shù)據(jù)集中識別出任意形狀的聚類[51]。對于引,DBSCAN的計(jì)算復(fù)雜度是O(nlogn);否則其到的定義如下:以x為圓心的半徑Eps內(nèi)的球形區(qū)域稱為該點(diǎn)x意一點(diǎn)x的Eps鄰域內(nèi)包含大于或等于最小數(shù)目3.....
圖3.2密度連接示例
專業(yè)學(xué)位碩士研究生學(xué)位論文第三章基于Spark的密度聚類算法并行直接密度可達(dá)數(shù)據(jù)集D,如果點(diǎn)y在點(diǎn)x的Eps鄰域中而且點(diǎn)x是核心對象,則稱點(diǎn)yEps和MinPts直接密度可達(dá)的[52]。密度可達(dá)半徑Eps和MinPts的數(shù)據(jù)集D中,存....
本文編號:4022834
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/yingxiaoguanlilunwen/4022834.html