上一篇介紹了資料可以從哪個階段精簡跟可以精簡什麼東西,如果沒有看過的可以點擊幾下的網址。
資料探勘筆記8-資料精簡 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)
維度精簡方法
1.一致性測量法
首先把資料轉成連續型。
計算資料的不一致量。
月收入跟會員等級的關係。
月收入是1的有兩個,等級是低跟高,所以不一致量是1。
月收入是2的有三個,等級是低、低跟高,所以不一致量是1。
月收入是3的有兩個,等級是高跟低,所以不一致量是1。
總不一致量是3。
教育程度跟會員等級的關係。
教育程度是國中的有一個,不一致量是0。
教育程度是高中的有三個,等級是低、低跟高,不一致量是1。
教育程度是大學的有三個,等級是高、低跟高,不一致量是1。
總不一致量是2
年齡跟會員等級的關係。
年齡是1的有兩個,等級是高、低,不一致量是1。
年齡是2的有五個,等級是低、低、低、高、高,不一致量是2。
總不一致量是3。
不一致量最低就代表是比較重要的資料。
上述的維度不大,如果當維度大起來就有2^n-1的可能,還有可以設定不一致量大於多少就不要了,來增加探勘的速度,所以下面介紹兩個選擇的策略。
1.完整列舉
把所有可能列出來,很耗時間,但是可以找到最佳組合。
2.經驗法則列舉
是一種貪婪方式,選擇最低不一致量的維度,在往下,如果符合所設的條件就成功,用到一半失敗就在選擇另外一個維度,比較快速,但並不保證是最佳組合。
我們要從上到下,還是下到上 ?下面介紹三種方式。
1.漸進式挑選-下而上
2.漸進式刪除-上而下
3.混合法-上下交互