數(shù)據(jù)分析 – 樂思網(wǎng)絡(luò)輿情監(jiān)測(cè),快全準(zhǔn)! http://www.galou.cn/wp Tue, 23 Feb 2016 07:20:18 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.5.18 租房數(shù)據(jù)分析:2016年在北京如何租到好房子? http://www.galou.cn/wp/article/11093 Tue, 23 Feb 2016 15:19:14 +0000 http://www.galou.cn/wp/?p=11093  

第一因素:面積!單間or整租?

 

 

對(duì)于什么面積性價(jià)比高,只需要下面這一張圖就一目了然:

 

當(dāng)面積達(dá)到8平米時(shí),均價(jià)達(dá)到最高,北京郵電大學(xué)附近的一間9平米的單間,都能租到2600元!相比之下,60-100平這個(gè)區(qū)間平均租金比較便宜。100平以上,小區(qū)和裝修都相對(duì)高端,所以均價(jià)高。如果租單間,15平米是性價(jià)比最高的。

所以,趕緊拉上你的基友,閨蜜,男女朋友去整租吧!不僅更安全方便,而且分?jǐn)偤笞饨鸬秃芏啵?/p>

 

第二:地段,從南到北,該租哪里?

 

在下面統(tǒng)計(jì)時(shí),為了便于理解,單間統(tǒng)一換算為15平的價(jià)格,整租換算為65平的價(jià)格。

下圖是北京所有小區(qū)的平均租房單價(jià),中關(guān)村,魏公村,國貿(mào),三元橋都不便宜,大學(xué)聚集區(qū)和商業(yè)區(qū)的租金普遍較貴。

 

我們?cè)僖?span style="font-family: Calibri;">3D的形式繪制價(jià)格熱力圖(不同顏色代表不同區(qū)縣,密集喜愛癥福音):

 

 

再研究不同區(qū)縣的價(jià)格,為了便于觀察,我把綠中介的自如單間均價(jià)都換算為15平米:

出乎意料,曾經(jīng)房價(jià)霸主西城,卻在租金上敗下陣來,還不如海淀東城。

 

我好奇五號(hào)線沿線的價(jià)格是如何分布的,于是做了一張下面的圖:

請(qǐng)仔細(xì)看曲線的下降點(diǎn),這些都是北京環(huán)路的綠隔,沒什么商業(yè),整體租金都會(huì)偏低,但非常不建議租這些地方,在北京的人都知道過天橋有多麻煩。

再看單間最貴的區(qū)域:學(xué)校周圍的單間尤其貴,這應(yīng)該也是供求關(guān)系導(dǎo)致的。

 

再看整租:

金融街高富帥遍地,朝陽公園,工體都是外國人,他們自然要選擇整租,我所在的太陽宮有不少高端住宅,拉高了整體租金,真是過不下去了!

 

那朝向,樓層和房齡呢

 

整租時(shí),價(jià)格對(duì)朝向和樓層都不是很敏感,但單間是很敏感的。先看朝向,顯而易見,因?yàn)椴晒馔L(fēng)較好,南北臥和西南臥是最貴的,相比北臥是最差的,價(jià)格差距在400左右。

 

獨(dú)立衛(wèi)生間簡直不要太方便,萬惡的中介,不論是衛(wèi)生間還是陽臺(tái),都算入了房間的面積。?有衛(wèi)生間的單間不超過1%,至少貴600塊錢

最后看樓層,自如的房子,出乎意料的給了準(zhǔn)確地樓層,給了我寶貴的數(shù)據(jù):

二層最貴,一層最便宜,三層和以上差不多。道理也簡單啊,一層采光不好,而且比較潮。高層爬樓比較麻煩。

 

順便一提,高端小區(qū)房齡新,租金貴,但2000年以前的小區(qū),租金和房齡沒什么關(guān)系,相關(guān)系數(shù)只有0.048

 

裝上班族最看重的:地鐵

 

在北京,上班最重要的是坐地鐵方便,因此我統(tǒng)計(jì)了全北京12000個(gè)小區(qū)的信息,并計(jì)算了每個(gè)小區(qū)到最近地鐵站的步行距離。看得出地鐵對(duì)租金的影響還是很大的,相關(guān)系數(shù)為0.29。基本上,每離地鐵近100米,65平米房子的租金就會(huì)貴200塊錢。不過在地鐵站400米范圍內(nèi),地鐵對(duì)價(jià)格的影響并不顯著了。

 

下面繪制了到地鐵站步行距離和租房單價(jià)的散點(diǎn)圖:

結(jié)論:?遠(yuǎn)離商業(yè)區(qū)和學(xué)校

 

由于租房不同于買房,市場(chǎng)瞬息萬變,盡量要避開學(xué)校和商業(yè)區(qū),或選擇遠(yuǎn)郊離地鐵近的小區(qū),租金差異遠(yuǎn)遠(yuǎn)大于出行費(fèi)用差異。

總體來看,租房主要是挑小區(qū),同一小區(qū)內(nèi),除非裝修差太多,否則價(jià)格不會(huì)有太多差異。

 

?VIA:趙一鳴

]]>
數(shù)據(jù)分析中異常值在SAS中的處理 http://www.galou.cn/wp/article/9998 Mon, 10 Aug 2015 16:28:26 +0000 http://www.galou.cn/wp/?p=9998  

數(shù)據(jù)分析少不了和數(shù)據(jù)中的異常值打交道,Winsorize處理在SAS中經(jīng)常使用。

 

Winsorize即極值處理,原理是將數(shù)據(jù)中的異常值修建,使之與正常分布的最大值與最小值相同。例如,你的數(shù)據(jù)整體位于[7090]這個(gè)區(qū)間,而分析的數(shù)據(jù)中有些值特別大或者特別小,比如出現(xiàn)了606595125這種數(shù)值,這時(shí)Winsorize處理就能夠?qū)⑦@些特別大或者特別小的值進(jìn)行調(diào)整,讓這些異常值變成你自己定義的一個(gè)合理范圍中。對(duì)于上限,如果定義比90高出10%記為異常值,那么95這個(gè)值就會(huì)被SAS處理,放在Winsorize處理后的數(shù)據(jù)集里,而125將被看做異常值,不會(huì)放入Winsorize處理后的數(shù)據(jù)集里;同理,對(duì)于下限也是如此。

 

數(shù)據(jù)中含有缺失值和重復(fù)值時(shí),進(jìn)行Winsorize處理稍微會(huì)復(fù)雜一些。可以先對(duì)數(shù)據(jù)排序,但是缺失值首先會(huì)對(duì)計(jì)算造成不小的影響,所以Winsorize處理很方便解決這些常見難題。

 

SAS?Winsorize?處理過程:

 

%let?DSName?=sashelp.heart;

proc?iml;

/*?SAS/IML?moduleto?Winsorize?each?column?of?a?matrix.

Input?proportion?of?observations?toWinsorize:?prop?<?0.5.

Ex:?y=?Winsorize(x,?0.1)?computes?the?two-side?10%?Winsorized?data?*/

start?Winsorize(x,prop);

p?=?ncol(x);?/*?number?of?columns?*/

w?=?x;?/*?copy?of?x?*/

do?i?=?1?to?p;

z?=?x[,i];?/*?copy?i_th?column?*/

n?=?countn(z);?/*?count?nonmissing?values?*/

k?=?ceil(prop*n);?/*?number?of?obs?to?trim?from?each?tail?*/

r?=?rank(z);?/*?rank?values?in?i_th?column?*/

/*?find?target?values?and?obs?with?smaller/largervalues?*/

lowIdx?=?loc(r<=k?&?r^=.);

lowVal?=?z[loc(r=k+1)];

highIdx?=?loc(r>=n-k+1);

highVal?=?z[loc(r=n-k)];

/*?Winsorize?(replace)?k?smallest?and?klargest?values?*/

w[lowIdx,i]?=?lowVal;

w[highIdx,i]?=?highVal;

end;

return(w);

finish;

 

/*?test?thealgorithm?on?numerical?vars?in?a?data?set?*/

use?&DSName;

read?all?var?_NUM_into?X[colname=varNames];

close;

winX?=?Winsorize(X,0.1);

 

 

代碼中,矩陣winX包含經(jīng)過Winsorize處理過的數(shù)據(jù),如果你想輸出SASWinsorize處理后的數(shù)據(jù),數(shù)據(jù)集屬于小數(shù)據(jù)集,可以使用代碼:%letDSName?=?sashelp.class;?進(jìn)行實(shí)現(xiàn)。

 

大批量數(shù)據(jù)處理之前,想驗(yàn)證SAS?Winsorize過程是否正確,可以借助SAS/IML計(jì)算出來的縮尾均值(?Winsorized?means),與SAS?PROC?UNIVARIATE?計(jì)算出來的縮尾均值進(jìn)行比較。

 

/*?Compute?Winsorized?mean,?which?is?mean?of?the?Winsorized?data?*/

winMean?=?mean(winX);

print?winMean[c=varNames?f=8.4];

 

 

/*?Validation:?compute?Winsorized?means?byusing?UNIVARIATE?*/

ods?exclude?all;

proc?univariate?data=&dsname?winsorized=0.1;

ods?output?WinsorizedMeans=winMeans;

run;

ods?exclude?none;

 

proc?print?data=winMeans;

var?VarName?Mean;

run;

 

——SAS中文論壇

 

]]>