上一篇講了資料轉換的好處還有方法,還有資料型態的種類,如果沒有看過可以點擊底下的網址。
資料探勘筆記7-資料前置處理2 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)
焦點
●資料精簡是什麼?
●精簡資料的好處
●什麼類型的資料可以精簡
資料精簡(data reduction)
在眾多資料中挑出可以代表的資料。
(在眾人中挑出一個可以改變世界的人)
兩個看法
狹義-前置處理階段
廣義-前置處理階段、探勘階段(mining phase)、後置處理階段(post-processing phase)
前置處理階段
建立自己想要的資料集合,並從資料集合中去掉,無用、重複、偏差的資料。
(就好像去自助餐,選擇自己想要的吃的)
探勘階段(mining phase)
減少花在太平凡的資料上,減少產生重複、不重要的知識。
(就好像修仙世界,一般人最多只能到櫻丹境界,自然而然妳就會放棄找一般人,去找資質非凡的人,把資源投入在這些人身上搞不好會練出金丹境、戰皇境)
後置處理階段(post-processing phase)
挑出順眼的探勘結果,視覺化呈現出來,方便做決策。
(就好像玩遊戲選角色一樣,男生一律不選,只選女生, 除了快樂、眼睛還可以吃冰淇淋)
什麼類型的資料可以精簡
1.維度精簡(dimension reduction)
又稱特徵選取(feature selection) 把不重要的屬性刪除,留下或新增對探勘有用的屬性。
(就好像飲食控制,知道自己缺什麼就補什麼,什麼不能吃就不碰)
2.數值精簡
數值太過'細緻'導致在前置、探勘、後置花費大量成本,把數值轉換成容易理解,會對探勘有幫助。
(就像心思很細膩的人,很容易遭受外在事物影響)
3.紀錄精簡
資料只會越來越多,透過一些方法選出很'特殊'的資料。
(就好像人類的慾望川流不息,逼不得已只能選出自己真的很喜歡的)(妳可以喜歡很多人,但是選擇了之後就不能腳踏兩條船,我好像連選擇都沒有( ͒˃⌂˂ ͒))
小結論
1.提高探勘效率。 (資源花在重要事情上)
2.提高資料品質。 (把實力不足的去掉,關注那些奇才)
3.提高資料、知識的可讀性。 (這裡只剩下奇才)
留言列表