close

  上次介紹了 什麼是資料探勘、目的、應用、崛起、歷史、階級還沒看過的可以點擊下面的連結。

資料探勘筆記-認識資料探勘 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)

 

發現新大陸

 

  要做資料探勘前要做很多的事情,就好像演舞台劇,要經過不斷的練習最後呈現出精彩的表演。

 

1.資料的蒐集

  開始蒐集資料,不管是網路、資料庫、Excel等等..。

 

2.資料的處理

  蒐集來的資料可能有空白、或者是不合理的部分,要經過處理,統一格式,這是最耗時的部分,有可能高達80%都耗在這裡,我就慢慢跟你耗阿

 

3.資料倉儲建立

  主要用線上分析處理(OLAP,on-line analytical processing )來使用基本的模型,讓資料變成比較容易觀看,或者是可以有多個角度觀看的資料,資料倉儲後面會講大概有印象就好了。

 

4.資料探勘

  用統計分析的模型找出知識隱藏的謎團、找出其相關的關連。

 

5.樣式評估

  看結果是不是自己想要的,你喜歡別人,不代表別人喜歡你 ಥ⌣ಥ。

 

6.結果展示

  用大家都看得懂的方式呈現,才不會有誤會,單身狗的三大幻覺之一,他對我有意思Σ( ° △ °|||)。

 

資料探勘四大護法

資料分類(data classfication)

就好像把人分成:

  母胎單身  (ఠ్ఠ ˓̭ ఠ్ఠ)

  單身狗     (@~@)?

  有女朋友  v( ̄︶ ̄)y

  已結婚     (´・ω・`)

可以用決策樹、記憶基礎推理(Memory Based reasoning,MBR)是人工智慧的應用,這裡我就不多贅述了。

 

資料關連(data association)

  就好像母胎單身的人去買東西都覺得一般大小的好像家庭號,對於有女朋友的買東西都覺得家庭號的才是一般大小的,會用購物籃分析(market basket analysis),來去分析消費者的購買行為。

母胎單身  80%買一般包裝  20%買家庭號

有女朋友  20%買一般包裝  80%買家庭號

 

資料分群(data clustering)

  當你無從下手時(嘗試切中路),可以從這個先來,自動分群,再從中找出關連,會用非監督式學習(unsupervised learning),因為是自動,所以不需要輸入輸出,要主動阿,我太難了 ( ಠ ಠ )

 

循序樣式探勘 (sequential pattern mining)就你最特別比別人多兩個字

  跟關連法則很像阿,抄襲,其實差別在於時間,是有先後順序之分的。

要選舉前三個月90%候選人開始做事了。

選舉完一個禮拜102%的候選人開始放假了。

 

arrow
arrow
    創作者介紹
    創作者 讀書小天地 的頭像
    讀書小天地

    書籍分享天地

    讀書小天地 發表在 痞客邦 留言(0) 人氣()