基于手機(jī)信令數(shù)據(jù)的數(shù)據(jù)清洗挖掘與居民職住空間分析
本文選題:手機(jī)信令數(shù)據(jù) 切入點(diǎn):數(shù)據(jù)清洗 出處:《西南交通大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:作為所轄區(qū)域的政治、經(jīng)濟(jì)、文化中心,城市的發(fā)展能有力地帶動(dòng)周邊區(qū)域的發(fā)展。城市中合理的居民職住空間規(guī)劃能有效提高居民的生活質(zhì)量與工作效率,是城市建設(shè)中不可或缺的一環(huán)。因此如何獲取城市居民的人口密度以及職住空間分布是城市規(guī)劃建設(shè)中的大問(wèn)題,傳統(tǒng)獲取職住數(shù)據(jù)的方式主要為上門走訪、發(fā)放調(diào)查問(wèn)卷等人工方式,這些方式既消耗了大量的人力物力,又不能保證結(jié)果的準(zhǔn)確性。隨著時(shí)代的發(fā)展,一些較為先進(jìn)的手段已經(jīng)應(yīng)用在了城市信息獲取中,如電話訪問(wèn)調(diào)查,視頻監(jiān)控記錄等,但這些方法不可避免地存在成本高、覆蓋面小等缺點(diǎn)。目前,利用手機(jī)信令數(shù)據(jù)獲取城市居民的職住空間分布是大數(shù)據(jù)時(shí)代下的研究熱點(diǎn),本文通過(guò)對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行清洗、挖掘、提取這一系列步驟,獲取居民的職住空間分布信息。本文的工作主要體現(xiàn)在以下幾個(gè)方面:在數(shù)據(jù)清洗方面,提出了對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行層次化清洗的原則:首先將信令數(shù)據(jù)視為常規(guī)數(shù)據(jù),清洗其中包含的無(wú)效數(shù)據(jù);隨后針對(duì)手機(jī)信令數(shù)據(jù)的特點(diǎn),清洗信令數(shù)據(jù)所特有的漂移數(shù)據(jù);最后基于后續(xù)停留點(diǎn)提取的需求,提出一種經(jīng)K-means聚類算法改良的LOF離群點(diǎn)檢測(cè)算法,清洗影響停留點(diǎn)提取的軌跡點(diǎn)。經(jīng)實(shí)驗(yàn)驗(yàn)證,該改良算法能夠在不影響檢測(cè)精度的前提下提高算法的效率。在數(shù)據(jù)挖掘方面,針對(duì)DBSCAN聚類算法不適合處理時(shí)空數(shù)據(jù)的缺陷,從聚類算法的基本概念入手,對(duì)其進(jìn)行時(shí)間維度的語(yǔ)義擴(kuò)充,使其適合手機(jī)信令數(shù)據(jù)的停留點(diǎn)提取;在停留點(diǎn)提取算法的參數(shù)確定方面,創(chuàng)新性地結(jié)合停留點(diǎn)的定義與數(shù)據(jù)源的特征,動(dòng)態(tài)地確定算法的參數(shù),簡(jiǎn)化了參數(shù)確定過(guò)程;最后,與經(jīng)典的停留點(diǎn)提取算法對(duì)比,證明本文提出算法的優(yōu)越性。在職住空間提取方面,首先對(duì)實(shí)驗(yàn)獲取的停留點(diǎn)數(shù)據(jù)進(jìn)行分析,得到其基本特征;隨后結(jié)合資料設(shè)定了職住停留點(diǎn)劃分的時(shí)間閾值,并設(shè)計(jì)了相應(yīng)算法從停留點(diǎn)集合中提取職住停留點(diǎn);最后,根據(jù)獲取的停留點(diǎn)集合繪制居民職住分布熱力圖,并結(jié)合實(shí)際情況對(duì)熱力圖進(jìn)行分析。
[Abstract]:As the political, economic and cultural center of the region under its jurisdiction, the development of the city can powerfully drive the development of the surrounding area. The reasonable planning of the occupation and housing space of the residents in the city can effectively improve the quality of life and work efficiency of the residents. It is an indispensable link in urban construction. Therefore, how to obtain the population density of urban residents and the distribution of occupation and housing space is a major problem in urban planning and construction. These methods not only consume a lot of manpower and material resources, but also can not guarantee the accuracy of the results. With the development of the times, some more advanced methods have been used in obtaining urban information. Such as telephone interview investigation, video surveillance record and so on, but these methods inevitably have some disadvantages, such as high cost and low coverage. At present, the use of mobile phone signaling data to obtain the spatial distribution of urban residents' occupation and residence is a hot research topic under big data's time. In this paper, the mobile phone signaling data cleaning, mining, extraction of this series of steps, to obtain residents of the occupation and residential space distribution information. The work of this paper is mainly reflected in the following aspects: in data cleaning, The principle of hierarchical cleaning for signaling data of mobile phone is put forward: firstly, the signaling data is regarded as regular data, and the invalid data is cleaned, then the drift data of signaling data is cleaned according to the characteristics of signaling data of mobile phone. Finally, based on the requirement of subsequent stay point extraction, an improved LOF outlier detection algorithm based on K-means clustering algorithm is proposed to clean the locus points that affect the stay point extraction. The improved algorithm can improve the efficiency of the algorithm without affecting the detection accuracy. In the aspect of data mining, the DBSCAN clustering algorithm is not suitable to deal with the defects of space-time data. The semantic extension of time dimension makes it suitable for the stopover point extraction of mobile phone signaling data, and innovatively combines the definition of stopover point with the characteristics of data source in parameter determination of stopover point extraction algorithm. The parameters of the algorithm are determined dynamically, which simplifies the process of parameter determination. Finally, compared with the classical stop-point extraction algorithm, the superiority of this algorithm is proved. Firstly, the data obtained from the experiment are analyzed, and the basic characteristics of the data are obtained. Then, the threshold value of the occupation and residence points is set according to the data, and the corresponding algorithm is designed to extract the occupation and residence points from the set of residence points. According to the set of residence points obtained, the thermal diagram of resident occupation and residence distribution is drawn, and the thermodynamic diagram is analyzed in combination with the actual situation.
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設(shè)計(jì)[J];微計(jì)算機(jī)應(yīng)用;2009年10期
2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計(jì)算機(jī)科學(xué);2012年S3期
3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年11期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報(bào);2002年11期
5 鄧中國(guó),周奕辛;數(shù)據(jù)清洗技術(shù)研究[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
6 唐懿芳,鐘達(dá)夫,張師超;數(shù)據(jù)清洗前的預(yù)處理方法[J];廣西科學(xué);2005年02期
7 孟堅(jiān),董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[J];微機(jī)發(fā)展;2005年04期
8 包從劍;李星毅;施化吉;;可擴(kuò)展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年07期
9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年12期
10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[J];科技資訊;2009年01期
相關(guān)會(huì)議論文 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個(gè)可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 崔運(yùn)釧;劉連忠;;一種可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
3 汪愛(ài)民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計(jì)和應(yīng)用[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2014年會(huì)論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對(duì)信息檢索質(zhì)量的影響及清洗方法[A];2011年中國(guó)索引學(xué)會(huì)年會(huì)暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴(kuò)展的數(shù)據(jù)清洗框架[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險(xiǎn)貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動(dòng)態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計(jì)與實(shí)現(xiàn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
10 趙之慧;;專利數(shù)據(jù)加工[A];2014年中華全國(guó)專利代理人協(xié)會(huì)年會(huì)第五屆知識(shí)產(chǎn)權(quán)論壇論文(第二部分)[C];2014年
相關(guān)重要報(bào)紙文章 前1條
1 中國(guó)人民財(cái)產(chǎn)保險(xiǎn)股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨(dú)立的數(shù)據(jù)清洗服務(wù)[N];計(jì)算機(jī)世界;2009年
相關(guān)博士學(xué)位論文 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲(chǔ)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 張曉東;基于業(yè)務(wù)模型的數(shù)據(jù)清洗與整合平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
4 艾超;針對(duì)在線產(chǎn)品支撐數(shù)據(jù)的過(guò)濾和分析系統(tǒng)的研究與設(shè)計(jì)[D];電子科技大學(xué);2015年
5 王江;數(shù)據(jù)清洗技術(shù)研究及清洗框架的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2016年
6 陳飛;基于MapReduce的數(shù)據(jù)清洗算法研究[D];昆明理工大學(xué);2016年
7 李寧寧;大數(shù)據(jù)清洗系統(tǒng)中優(yōu)化技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
8 盛丹丹;面向農(nóng)業(yè)領(lǐng)域知識(shí)庫(kù)構(gòu)建的數(shù)據(jù)清洗方法優(yōu)化研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2016年
9 鄭紀(jì)玲;數(shù)據(jù)清洗在構(gòu)建POI數(shù)據(jù)倉(cāng)庫(kù)中的研究與應(yīng)用[D];中國(guó)礦業(yè)大學(xué);2016年
10 李苗;船舶監(jiān)控系統(tǒng)中實(shí)時(shí)數(shù)據(jù)清洗技術(shù)研究[D];南京航空航天大學(xué);2016年
,本文編號(hào):1652346
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/1652346.html