上一篇介紹了資料前置處理的整合跟清理,沒有看過的可以點擊底下的網址。
資料探勘筆記6-資料前置處理 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)
續-資料轉換(data transformation)
提升資料探勘的可信度、價值。(不要當舔狗,要有自己價值)
初階用法
●資料統整化(data aggregation)
就是自己(工具人)先統計或建立資料立方體,來查看自己需要的,有可能找出其中的規律性。
●資料一般化(data generalization)
簡化資料的多樣性,可以把年齡分成未成年、青年人、中年人、老年人,以增加探勘的可用性。(斷、捨、離)
●建立新屬性(attribute construction)
在新增一個屬性,例如利用顧客的出生日期來計算出年齡來。
進階用法
●資料正規化
把不同標準的資料限縮在一個範圍內。
●極值正規化
將不同標準的資料,轉成相同的標準,而把資料限縮在一個範圍中。
例:
兩個國家的薪資,在A國月薪4萬不代表等於在B國4萬的月薪,有可能高或低。
假設
A國的月薪在[30000~150000]之間
B國的月薪在[20000~100000]之間
我在A國賺5萬等於B國的幾萬?
20000+(50000-30000)(100000-20000)/(150000-30000) = 33333.33333
B低+(薪水-A低)(B高-B低)/(A高-A低)
●十進位正規化
把最大薪資設定為1假設十萬元,我賺4萬就是0.4,就可以把值壓縮在[0,1]。
資料形式轉換
轉換前先認識一下有哪些資料形式。
1.文本形式
字串的集合,網頁、文件...等。(小說、悔過書、情書)
2.時間形式
隨時間而改變,股票,證卷。(日記、部落格)
3.交易形式
顧客交易的紀錄。(家計簿、記帳本)
4.關聯形式
關聯式資料庫中的項目。
轉換方法
●多層次資料一般化(multilevel data generalization)
用於形式: 關聯形式
類似資料立方體(魔術方塊)中的上捲,例如消費,從一個區在上卷就是一個縣市,來了解哪個縣市的消費力最強。(就像老師在講台上往底下看,看得一清二楚 ლ(∘◕‵ƹ′◕ლ))
●分類法(data classfication)
用於形式: 關聯形式
利用資料庫中的一個屬性當作一個分類的標準,去吃小吃店,不點小菜、點100的小菜、點100以上的小菜,分類標記為低、中、高,來借錢時可以依據標記來決定借錢的額度。
●群集分析(cluster analysis)
用於形式: 關聯形式
物以類聚,把差不多的放一起。(來刷一排漢堡)
●關連法則探勘(association rules mining)
用於形式:交易形式
找出交易項目的關連性,例如暖男(我?)在每月的幾號都會買補品,就可以知道他有沒有女朋友。(因為我有所以我才買,我沒有才沒買இдஇ)。
●時間序列分析(time series analysis)
用於形式:時間形式
分析不同時間點資料的變化,來預測未來,例如狗狗幣,一句話就讓他升值。
●以樣式為基礎相似搜尋(pattern-based similarity search)
用於形式:文本形式、時間形式
例:
在這堆簡訊中找出以失戀為樣式,當朋友、我去洗澡、在嘛*5、恩*20。 (ᗒᗣᗕ)՞
搜尋股票變動幅度大的時間、女朋友情緒變化大的時間。
( ̄▽ ̄)~*
資料型態轉換
要做探勘前每個演算法都有對應的型態,要轉好才可以用,而資料又分成兩種。
●離散型(discrete)
無法直接計算,性別、職業、地址......等等。
適用於監督式學習(分類法),不是和非監督式學習(群集分析)
理解度:高,例:他的薪水很高。
●連續型(continuous)
可以推測出,月薪、生日......等等。
監督和非監督都可以。
理解度:低 ,例:他的薪水有5萬(高低每個人理解不同)。
離散轉連續
需要有相當的領域知識,例如薪水在這個地方等於那個地方的多少。
連續轉離散
分類法中的決策樹演算法,用數值分類效果不好,例如年齡,直接轉成 少年、青年、中年與老年。
留言列表