基于缺失值簡(jiǎn)單插補(bǔ)的聚類(lèi)分析
作者:武依明時(shí)間:2016-01-30 11:16:38 來(lái)源:www.455685.com 閱讀次數(shù):4012次 ]
數(shù)據(jù)缺失、無(wú)回答是統(tǒng)計(jì)過(guò)程中比較普遍的現(xiàn)象,缺失值的處理對(duì)研究質(zhì)量亦有很大影響,本文使用多種簡(jiǎn)單插補(bǔ)方法得出不同的缺失值的估計(jì)值,并比較各種簡(jiǎn)單插補(bǔ)方法的優(yōu)劣,最后運(yùn)用系統(tǒng)聚類(lèi)的方法,對(duì)我國(guó)31 個(gè)省的農(nóng)村居民家庭人均純收入進(jìn)行聚類(lèi)分析,從中發(fā)現(xiàn)特點(diǎn)和規(guī)律,分析我國(guó)從1990 年到2011 年以來(lái)各地區(qū)農(nóng)村居民家庭人均純收入的變化, 并進(jìn)行詳細(xì)的實(shí)證分析。
【關(guān)鍵詞】
缺失值; 簡(jiǎn)單插補(bǔ); 聚類(lèi)分析
1 前言
農(nóng)村居民占我國(guó)人口的很大部分,各地區(qū)的農(nóng)村居民收入差距呈上升趨勢(shì)。建國(guó)以來(lái),國(guó)家頒發(fā)了各種法案以及政策來(lái)提高農(nóng)村居民收入,改善農(nóng)村生活條件。但是隨著時(shí)代的發(fā)展,貧富差距越來(lái)越大,窮人越來(lái)越窮,富人越來(lái)越富,其中農(nóng)村居民家庭純收入是最能代表城鄉(xiāng)貧富差距拉大的指標(biāo),相比城市的市民來(lái)說(shuō), 農(nóng)村人均收入只是城市居民的六分之一。近來(lái)召開(kāi)的十八屆三中全會(huì)提出要加快構(gòu)建新型農(nóng)業(yè)經(jīng)營(yíng)體系,賦予農(nóng)民更多財(cái)產(chǎn)權(quán)利,推進(jìn)城鄉(xiāng)要素平等交換和公共資源均衡配置,完善城鎮(zhèn)化健康發(fā)展體制機(jī)制。這一政策的提出使得農(nóng)村問(wèn)題再一次受到社會(huì)的關(guān)注。
本文運(yùn)用系統(tǒng)聚類(lèi)的方法研究我國(guó)31 個(gè)省從1990 年到2011 年以來(lái)各地區(qū)的農(nóng)村居民家庭人均純收入的特點(diǎn)、規(guī)律和發(fā)展趨勢(shì),為國(guó)家縮短貧富差距,制定利農(nóng)富農(nóng)政策提供有力的數(shù)據(jù),同時(shí)研究農(nóng)村居民家庭人均純收入對(duì)我國(guó)以后的各種政策的實(shí)施具有指導(dǎo)意義。
2 缺失值簡(jiǎn)單插補(bǔ)
2.1 原始數(shù)據(jù)的采集和整理
本文針對(duì)我國(guó)三十一個(gè)省的農(nóng)村居民家庭人均純收入,采取1990、1995、2000、2005、2009、2010、2011 七個(gè)時(shí)間的數(shù)據(jù),匯總得到原始數(shù)據(jù),數(shù)據(jù)來(lái)源于中國(guó)統(tǒng)計(jì)年鑒2012。
2.2 缺失值處理方法—簡(jiǎn)單插補(bǔ)
原始數(shù)據(jù)中1990 年和1995 年重慶的農(nóng)村居民家庭人均純收入是缺失的,現(xiàn)用各種不同的簡(jiǎn)單插補(bǔ)方法進(jìn)行缺失值插補(bǔ),比較各方法的效果。
2.2.1 缺失值概念
簡(jiǎn)單一句話,缺失值就是說(shuō)數(shù)據(jù)是不完整的。
現(xiàn)實(shí)生活中存在通過(guò)各種方法獲得的統(tǒng)計(jì)數(shù)據(jù),而且各種調(diào)研活動(dòng)大都通過(guò)問(wèn)卷調(diào)查的形式來(lái)獲得調(diào)查數(shù)據(jù),在使用該調(diào)查數(shù)據(jù)時(shí)異常值和不符合邏輯的數(shù)據(jù)將要被剔除,因此就產(chǎn)生了缺失數(shù)據(jù)。這些數(shù)據(jù)將嚴(yán)重影響數(shù)據(jù)挖掘的質(zhì)量,成為數(shù)據(jù)挖掘的障礙。為了提高數(shù)據(jù)挖掘的質(zhì)量,在對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行分析之前, 一定要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。
如果把帶有缺失值的記錄刪除掉,僅對(duì)數(shù)據(jù)集中的完整記錄進(jìn)行數(shù)據(jù)挖掘分析,很有可能造成估計(jì)偏差,以至于根據(jù)該分析結(jié)果做出錯(cuò)誤的決策,由此說(shuō)來(lái)使用不完整的數(shù)據(jù)進(jìn)行研究,那么研究結(jié)果的準(zhǔn)確性就會(huì)較差,因此,對(duì)數(shù)據(jù)中的缺失值進(jìn)行插補(bǔ)和修整是非常必要,對(duì)我們進(jìn)行數(shù)據(jù)挖掘分析有重要意義。
2.2.2 簡(jiǎn)單插補(bǔ)方法
常用的簡(jiǎn)單均值插補(bǔ)方法有很多,再次介紹部分方法的思想原理。均值插補(bǔ)法是用每個(gè)變量的均值取代該變量的缺失值;最近鄰均值插補(bǔ)方法是選取缺失數(shù)據(jù)附近的數(shù)據(jù)的均值替代該變量的缺失值; 熱卡插補(bǔ)是使用本次調(diào)查同一插補(bǔ)類(lèi)中的供者記錄( 已經(jīng)通過(guò)了所有的審核) 的信息來(lái)代替一個(gè)相似的受者記錄中缺失的或不一致數(shù)據(jù)的插補(bǔ)方法;而冷卡插補(bǔ)則使用其它資料中的供者。
2.2.3 插補(bǔ)結(jié)果比較
使用spss 軟件操作得到各插補(bǔ)值的估計(jì)結(jié)果,從結(jié)果中可以看出各種插補(bǔ)得到的插補(bǔ)值有明顯的差異,尤其是熱卡插補(bǔ)和其它插補(bǔ)得到的插補(bǔ)值差異更大,因此在選擇插補(bǔ)方法時(shí)要根據(jù)不同樣本、不同類(lèi)型的數(shù)據(jù)依情況而定。本文選取回歸插補(bǔ)得到的缺失值進(jìn)行后續(xù)聚類(lèi)分析研究。
3 聚類(lèi)分析
3.1 基本原理思想
系統(tǒng)聚類(lèi)法首先將n 個(gè)樣本看成n 類(lèi),然后將性質(zhì)最接近的兩類(lèi)合并成一個(gè)新類(lèi),我們就得到n-1 類(lèi),再?gòu)闹姓业阶罱咏膬深?lèi)合并成一類(lèi),我們就得到n-2 類(lèi),與此重復(fù)下去,最后所有的樣品均在一類(lèi)上,并將上述過(guò)程畫(huà)成一張譜系圖便可決定分多少類(lèi),每類(lèi)各有什么樣品。
3.2 系統(tǒng)聚類(lèi)分類(lèi)結(jié)果
本文使用系統(tǒng)聚類(lèi)組間聯(lián)接法,采用歐氏距離平方,得到我國(guó)三十一個(gè)省關(guān)于農(nóng)村居民家庭人均純收入的分類(lèi),譜系圖分類(lèi)結(jié)果如下:
第一類(lèi)包括天津、江蘇、浙江、北京、上海;第二類(lèi)包括山西,內(nèi)蒙古,遼寧,吉林,黑龍江,福建,江西,河北、安徽、山東, 河南,湖北,湖南,廣東,廣西,海南,重慶, 四川,貴州,云南,西藏,陜西,甘肅,青海, 寧夏,新疆。
4 實(shí)證分析
分類(lèi)結(jié)果是符合實(shí)際的,把北京、天津、上海、江蘇、浙江歸為一類(lèi)是有現(xiàn)實(shí)依據(jù)的。首先這五個(gè)城市都是經(jīng)濟(jì)發(fā)達(dá)城市。北京作為首都更是擁有天時(shí)地利人和的發(fā)展條件;天津是近幾年來(lái)發(fā)展較快的城市之一,它以工業(yè)電子產(chǎn)品為主;上海是從舊時(shí)代開(kāi)始就領(lǐng)先發(fā)展的,發(fā)展到今天有歷史推動(dòng)的原因;其次這五個(gè)城市擁有優(yōu)越的地理?xiàng)l件。五個(gè)城市除北京以外都是沿海城市,有利于發(fā)展沿海港頭經(jīng)濟(jì),為進(jìn)出口貿(mào)易提供方便,同時(shí)利用海洋資源發(fā)展船泊行業(yè)等;五個(gè)城市都擁有豐富的旅游資源,東南沿海空氣新鮮,陽(yáng)光明媚,氣候溫和等條件使得江蘇、上海、浙江等地的旅游業(yè)發(fā)展迅速,而北京同樣有旅游勝地故宮等,吸引大量海內(nèi)外游客。最后五個(gè)城市都擁有密集型科技人才和創(chuàng)新。尤其是北京,擁有各類(lèi)著名高等大學(xué),科技創(chuàng)新人才的培養(yǎng)在一定程度上促進(jìn)了北京的發(fā)展,加上各地高材生都傾向去北京工作、創(chuàng)業(yè)、定居等,無(wú)形中為北京提供了人才,這五個(gè)城市在科技創(chuàng)新方面幾乎每年排名前十。
綜合以上發(fā)展的各方面因素,北京、天津、上海、江蘇、浙江這五個(gè)城市的農(nóng)村家庭人均純收入都要較高,因此歸為一大類(lèi)。總的來(lái)看呈現(xiàn)出沿海城市比內(nèi)地發(fā)展的更快的特點(diǎn)。
5 對(duì)策建議
科技日新月異,經(jīng)濟(jì)發(fā)展要堅(jiān)持走改革發(fā)展和對(duì)外開(kāi)放的政策,沿海地區(qū)要充分利用地理位置的優(yōu)越性,增加就業(yè), 開(kāi)發(fā)新型行業(yè),充分利用海洋資源。增加就業(yè)的方法很多,在原有工作崗位的前提下增加工作人員,做好管理制度,培養(yǎng)高素質(zhì)管理人員,比如港口運(yùn)輸服務(wù)站的設(shè)立。比如說(shuō)小資本的企業(yè)家要在臺(tái)灣等地購(gòu)買(mǎi)他們特色的商品然后運(yùn)輸回來(lái),這樣就會(huì)用到船泊等運(yùn)輸工具,新型行業(yè)可以從船舶業(yè)發(fā)展。海洋蘊(yùn)含大量的資源,比如說(shuō)海帶,食鹽蝦、魚(yú)等水產(chǎn)品,還有礦產(chǎn)資源,利用這些可以投資副食品業(yè),政府可以開(kāi)發(fā)海底新能源,現(xiàn)在有科學(xué)家發(fā)現(xiàn)海藻經(jīng)過(guò)提煉可以提煉出石油,這就是新能源,現(xiàn)在還在進(jìn)一步研究中。
各地要想發(fā)展快就要充分發(fā)揮自己的優(yōu)勢(shì),而且可以和其它地區(qū)合作,共同發(fā)展,提高人民生活水平。
【參考文獻(xiàn)】
[1] 金勇進(jìn), 朱琳. 不同差補(bǔ)方法的比較. 數(shù)理統(tǒng)計(jì)與管理2000,19(2):50-54 頁(yè)
[2] 金勇進(jìn), 邵軍. 缺失數(shù)據(jù)的統(tǒng)計(jì)處理. 中國(guó)統(tǒng)計(jì)出版社, 2009:3 頁(yè)
本站論文資源均為來(lái)自網(wǎng)絡(luò)轉(zhuǎn)載,免費(fèi)提供給廣大作者參考,不進(jìn)行任何贏利,如有版權(quán)問(wèn)題,請(qǐng)聯(lián)系管理員刪除! 快速論文發(fā)表網(wǎng)(www.455685.com)本中心和國(guó)內(nèi)數(shù)百家期刊雜志社有良好的合作關(guān)系,可以幫客戶代發(fā)論文投稿.
投稿郵箱:ksfbw@126.com
客服Q Q:
82702382
聯(lián)系電話:15295038833
本站論文資源均為來(lái)自網(wǎng)絡(luò)轉(zhuǎn)載,免費(fèi)提供給廣大作者參考,不進(jìn)行任何贏利,如有版權(quán)問(wèn)題,請(qǐng)聯(lián)系管理員刪除!