上次介紹了 什麼是資料探勘、目的、應用、崛起、歷史、階級還沒看過的可以點擊下面的連結。
資料探勘筆記-認識資料探勘 @ 奇怪的(´・ω・`)增加了的部落格 :: 痞客邦 :: (pixnet.net)
發現新大陸
要做資料探勘前要做很多的事情,就好像演舞台劇,要經過不斷的練習最後呈現出精彩的表演。
1.資料的蒐集
開始蒐集資料,不管是網路、資料庫、Excel等等..。
2.資料的處理
蒐集來的資料可能有空白、或者是不合理的部分,要經過處理,統一格式,這是最耗時的部分,有可能高達80%都耗在這裡,我就慢慢跟你耗阿。
3.資料倉儲建立
主要用線上分析處理(OLAP,on-line analytical processing )來使用基本的模型,讓資料變成比較容易觀看,或者是可以有多個角度觀看的資料,資料倉儲後面會講大概有印象就好了。
4.資料探勘
用統計分析的模型找出知識、隱藏的謎團、找出其相關的關連。
5.樣式評估
看結果是不是自己想要的,你喜歡別人,不代表別人喜歡你 ಥ⌣ಥ。
6.結果展示
用大家都看得懂的方式呈現,才不會有誤會,單身狗的三大幻覺之一,他對我有意思Σ( ° △ °|||)。
資料探勘四大護法
資料分類(data classfication)
就好像把人分成:
母胎單身 (ఠ్ఠ ˓̭ ఠ్ఠ)
單身狗 (@~@)?
有女朋友 v( ̄︶ ̄)y
已結婚 (´・ω・`)
可以用決策樹、記憶基礎推理(Memory Based reasoning,MBR)是人工智慧的應用,這裡我就不多贅述了。
資料關連(data association)
就好像母胎單身的人去買東西都覺得一般大小的好像家庭號,對於有女朋友的買東西都覺得家庭號的才是一般大小的,會用購物籃分析(market basket analysis),來去分析消費者的購買行為。
母胎單身 80%買一般包裝 20%買家庭號
有女朋友 20%買一般包裝 80%買家庭號
資料分群(data clustering)
當你無從下手時(嘗試切中路),可以從這個先來,自動分群,再從中找出關連,會用非監督式學習(unsupervised learning),因為是自動,所以不需要輸入輸出,要主動阿,我太難了 ( ಠ ಠ ) 。
循序樣式探勘 (sequential pattern mining)就你最特別比別人多兩個字
跟關連法則很像阿,抄襲,其實差別在於時間,是有先後順序之分的。
要選舉前三個月,90%候選人開始做事了。
選舉完一個禮拜,102%的候選人開始放假了。
留言列表