上一篇介紹了資料倉儲的查詢、建置、架構跟R、M、H OLAP沒看過的可以點擊以下的網址。

資料探勘筆記5-在探資料倉儲 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)

 

手起刀落

 

  我們都知道收集來的資料要進行前置處理,那80%時間(時間小偷)都花在這裡了,可見前置處理的重要性,只要沒有好的資料就不會有好的探勘結果(我們之間不會有結果(,,Ծ‸Ծ,, ))。

 

1.資料不完整(data incomplete)

  在填寫問卷沒有規定不允空白,有可能會出現資料遺漏。(就像考卷上的問答題)

 

2.雜訊(noise)

  可能有人亂填資料,或者是特例,例如身高,大部分成年男性落在155~185之間,然後剛好有人的身高是195公分。

 

3.資料不一致(data inconsistency)

  例如大陸台灣1斤是不同的,因此需要單位轉換。(藍綠執政的標準不一致)

 

資料前置處理

 

分成三個步驟,資料轉換下一篇講,不然內容會太多。

 

1.資料整合(data integration)

2.資料清理(schema conflict)

3.資料轉換 (data transformation )

 

 

資料整合(data integration)

 

數值不一致(data value conflict):重量的單位、錢的幣值不一致,只需要單位轉換後就可以解決,或者是有人填了兩份資料拿了200元但是填的年齡都不同,這時就會選擇都拿掉、或者填入空值

 

綱目不一致(schema conflict):有的表格寫年齡屬性寫「實際年齡」、「真實年齡」,把屬性更改統一就好。(就像女生說我要去廁所或我要去洗澡一樣,都過一個禮拜了)

 

資料重複: A、B兩個資料表都有相同資料,會刪除其中一個資料表。(就像只能跟一個人交往,如果是複數的話你就是渣男,負數你就是單身狗)

 

綱目重複「地區」、「地址」只要地址就可以知道地區,所以會把地區刪除。(甜言蜜語不如實際的行動)

 

 

資料清洗(data cleaning)

 

資料正確性

 

數值有效&範圍性:真實性別只有個選擇、生日只有1~12月。

 

數值唯一性:會員編號、身分證不可能重複。( 就是我的唯一  ,妳就是我的小星星)

 

資料合理性:我三歲抬頭、我國小就是博士 明顯再說謊。(台北月租8000,包吃包睡,好貴)

 

 

資料完整性

 

是否缺少探勘所需屬性:要顧客的年齡但是沒有,看是不是有生日這個屬性,來推斷年齡。

 

缺少詳細資料:我在跟你談大海,你卻在談浴缸。

 

資料清洗-額外工作

 

(加班,沒有加班費 (屮゜Д゜)屮)

 

1.看有沒有數值空缺,有忽略&人工&自動填補。

 

忽略:就是刪掉、只適用很少資料缺失

 

人工填補:打電話問,但是通常都不會接 (⊙ꇴ⊙),耗人力。

 

自動填補:創新,把那些有問題填入'死亡'、'未知'、'不知' 來得到分類規則,或是填平均值

 

2.太誇大的資料刪除,假的也要刪。(不然要關三天)

 

 

資料清洗-雜訊處理法

 

 

1.裝箱法-等寬分割法(不適用不能排序的屬性)

 

  假設有12位顧客的年齡,經過排序,每3(自定義)個為一組,最大-最小除以分組數 = (75-11)/3 = 16。

 

11 15 18 21 24 27 30 45 55 60 70 75

 

  算出一個箱子的寬度後,就可以開始分裝了。

 

第一組 11+16 = 27, 11、15、18、21、24

第二組 27+16 = 43, 27、30

第三組 43+16 = 59, 45、55

第四組 59+16 = 75, 60、70

第五組 75

 

  缺點就是太不平均了,不是用於偏斜的資料(skew data)。

 

2.裝箱法-等深分割法(不適用不能排序的屬性)

我要3(自定義)個一組

第一組  11、15、18

第二組  21、24、 27

第三組  30、 45、 55

第四組  60、 70、 75

 

可以更平均的分。

 

3.平均值法

11 15 18 21 24 27 30 45 55 60 70 75

分四組(自定義),每組相加(11+15+18)相除(3),有小數自動進位

第一組  11 15 18  平均14.6  第一組 15、15、15

第二組  21 24 27  平均24     第二組 24、24、24

第三組  30 45 55  平均 43.3 第三組 44、44、44

第四組  60 70 75  平均 68.3 第四組 69、69、69

 

把極端值平緩化成正常值。

 

4.中位數

11 15 18 21 24 27 30 45 55 60 70 75

 

第一組  11 15 18  第一組 15、15、15

第二組  21 24 27  第二組 24、24、24

第三組  30 45 55  第三組 45、45、45

第四組  60 70 75  第四組 70、70、70

 

較容易消除極端值。

 

5.邊界值法

11 15 18 21 24 27

3(自定義)個一組


11 15 18 ,15最接近18          第一組 11 18 18

21 24 27 ,都接近就隨便一個   第二組 21 21 27

 

例:

12 15 18 20 22 分成 12 12 22 22 22

依照前後把中間換掉。

 

可以降低雜訊的影響。

arrow
arrow
    創作者介紹
    創作者 讀書小天地 的頭像
    讀書小天地

    書籍分享天地

    讀書小天地 發表在 痞客邦 留言(0) 人氣()