close

  上一篇介紹了資料可以從哪個階段精簡跟可以精簡什麼東西,如果沒有看過的可以點擊幾下的網址。

資料探勘筆記8-資料精簡 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)

 

維度精簡方法

1.一致性測量法

 

首先把資料轉成連續型

image

 

計算資料的不一致量。

 

月收入會員等級的關係。

 

月收入是1的有兩個,等級是低跟高,所以不一致量是1。

 

月收入是2的有三個,等級是低、低跟高,所以不一致量是1。

 

月收入是3的有兩個,等級是高跟低,所以不一致量是1。

 

總不一致量是3。


 

教育程度會員等級的關係。

 

教育程度是國中的有一個,不一致量是0。

 

教育程度是高中的有三個,等級是低、低跟高,不一致量是1。

 

教育程度是大學的有三個,等級是高、低跟高,不一致量是1。

 

總不一致量是2


 

年齡會員等級的關係。

 

年齡是1的有兩個,等級是高、低,不一致量是1。

 

年齡是2的有五個,等級是低、低、低、高、高,不一致量是2。

 

總不一致量是3。

 

不一致量最低就代表是比較重要的資料。


  上述的維度不大,如果當維度大起來就有2^n-1的可能,還有可以設定不一致量大於多少就不要了,來增加探勘的速度,所以下面介紹兩個選擇的策略。

 

1.完整列舉

所有可能列出來,很耗時間,但是可以找到最佳組合

2.經驗法則列舉

  是一種貪婪方式,選擇最低不一致量的維度,在往下,如果符合所設的條件就成功,用到一半失敗就在選擇另外一個維度,比較快速,但並不保證是最佳組合

 


我們要從上到下,還是下到上 ?下面介紹三種方式。

 

1.漸進式挑選-下而上

 

2.漸進式刪除-上而下

 

3.混合法-下交互

 

 

image

 

 

arrow
arrow
    創作者介紹
    創作者 讀書小天地 的頭像
    讀書小天地

    書籍分享天地

    讀書小天地 發表在 痞客邦 留言(0) 人氣()