close

  上一篇介紹了資料前置處理的整合跟清理,沒有看過的可以點擊底下的網址。

資料探勘筆記6-資料前置處理 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)

 

續-資料轉換(data transformation)

 

  提升資料探勘的可信度價值。(不要當舔狗,要有自己價值)

 

 

初階用法

 

資料統整化(data aggregation)

 

  就是自己(工具人)先統計或建立資料立方體,來查看自己需要的,有可能找出其中的規律性

 

資料一般化(data generalization)

 

  簡化資料的多樣性,可以把年齡分成未成年、青年人、中年人、老年人,以增加探勘的可用性。(斷、捨、離)

 

建立新屬性(attribute construction)

 

  在新增一個屬性,例如利用顧客的出生日期來計算出年齡來。

 

進階用法

 

資料正規化

不同標準的資料限縮在一個範圍內。

 

極值正規化

 

  將不同標準的資料,轉成相同的標準,而把資料限縮在一個範圍中。

 

例:

  兩個國家的薪資,在A國月薪4萬不代表等於在B國4萬的月薪,有可能高或低。

 

假設

 

A國的月薪在[30000~150000]之間

 

B國的月薪在[20000~100000]之間

 

我在A國賺5萬等於B國的幾萬?

 

20000+(50000-30000)(100000-20000)/(150000-30000) = 33333.33333

 

B低+(薪水-A低)(B高-B低)/(A高-A低)

 

 

 

十進位正規化

 

  把最大薪資設定為1假設十萬元,我賺4萬就是0.4,就可以把值壓縮在[0,1]。

 

 

 

資料形式轉換

 

轉換前先認識一下有哪些資料形式。

 

1.文本形式

 

  字串的集合,網頁、文件...等。(小說、悔過書、情書)

 

2.時間形式

 

  隨時間而改變,股票,證卷。(日記、部落格)

 

3.交易形式

 

  顧客交易的紀錄。(家計簿、記帳本)

 

4.關聯形式

 

關聯式資料庫中的項目。

 

 

轉換方法

 

 

多層次資料一般化(multilevel data generalization)

用於形式: 關聯形式

 

  類似資料立方體(魔術方塊)中的上捲,例如消費,從一個區在上卷就是一個縣市,來了解哪個縣市的消費力最強。(就像老師在講台上往底下看,看得一清二楚 ლ(∘◕‵ƹ′◕ლ))

 

 

分類法(data classfication)

用於形式: 關聯形式

 

  利用資料庫中的一個屬性當作一個分類的標準,去吃小吃店,不點小菜點100的小菜點100以上的小菜分類標記為低、中、高,來借錢時可以依據標記來決定借錢的額度

 

 

群集分析(cluster analysis)

用於形式: 關聯形式

 

物以類聚,把差不多的放一起。(來刷一排漢堡)

 

 

關連法則探勘(association rules mining)

用於形式:交易形式

 

  找出交易項目的關連性,例如暖男(我?)在每月的幾號都會買補品,就可以知道他有沒有女朋友。(因為我所以我才買,沒有沒買இдஇ)。

 

 

時間序列分析(time series analysis)

用於形式:時間形式

 

  分析不同時間點資料的變化,來預測未來,例如狗狗幣一句話就讓他升值。

 

 

以樣式為基礎相似搜尋(pattern-based similarity search)

用於形式:文本形式、時間形式

 

例:

  在這堆簡訊中找出以失戀為樣式,當朋友、我去洗澡、在嘛*5、恩*20。 (ᗒᗣᗕ)՞

 

  搜尋股票變動幅度大時間、女朋友情緒變化大時間

( ̄▽ ̄)~*

 

 

資料型態轉換

  要做探勘前每個演算法都有對應的型態,要轉好才可以用,而資料又分成兩種

 

離散型(discrete)

無法直接計算,性別、職業、地址......等等。

  適用監督式學習(分類法),不是和非監督式學習(群集分析)

理解度:高,例:他的薪水很高。

 

連續型(continuous)

可以推測出,月薪、生日......等等。

監督和非監督都可以

  理解度:低 ,例:他的薪水有5萬(高低每個人理解不同)。

 

離散轉連續

  需要有相當的領域知識,例如薪水在這個地方等於那個地方的多少。

 

連續轉離散

  分類法中的決策樹演算法,用數值分類效果不好,例如年齡,直接轉成 少年、青年、中年與老年。

arrow
arrow
    創作者介紹
    創作者 讀書小天地 的頭像
    讀書小天地

    書籍分享天地

    讀書小天地 發表在 痞客邦 留言(0) 人氣()