由於機器學習技術的進步,應用相當廣泛,例如推薦引擎、定向廣告、需求預測、垃圾郵件過濾、醫學診斷、自然語言處理、搜索引擎、詐騙偵測、證券分析、視覺辨識、語音識別、手寫識別..等等。
您可以先看下列影片,有一些概念
機器學習架構
機器學習(Machine Learning)是透過演算法,使用歷史資料進行訓練,訓練完成後會產生模型。未來當有新的資料,我們可以使用訓練產生的模型進行預測。
機器學習的訓練的資料是由 features、label組成。
- features:資料的特徵,例如:濕度、風向、風速、季節、氣壓。
- label: 資料的標籤,也就是我們希望預測的目標,例如:降雨(0:不會下雨、1:會下雨)、天候( 1:晴天、2:雨天、3:陰天、4:下雪)、氣溫。
如下圖,機器學習可分為2 階段:
- 訓練階段(Training):
訓練資料是過去累積的歷史資料,可能是文字檔、資料庫、或其他來源,經過Feature Extraction(特徵萃取),產生Feature(資料特徵)與Label(預測目標),然後經過機器學習演算法訓練後產生模型。
- 預測階段(Predict):
新輸入資料(可能文字檔、資料庫、或其他來源),經過Feature Extraction(特徵萃取)產生Feature(資料特徵),使用訓練完成的模型進行預測,最後產生預測結果。
機器學習分類:
機器學習可分為: 監督式學習(Supervised Learning)、非監督式學習(Unsupervised Learning)、增強式學習(Unsupervised Learning)。以下詳細介紹其分類:
機器學習可分為: 監督式學習(Supervised Learning)、非監督式學習(Unsupervised Learning)、增強式學習(Unsupervised Learning)。以下詳細介紹其分類:
- 監督式學習(Supervised Learning)
- 二元分類
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天是否會下雨(0.不會下雨、1.會下雨)。因為希望預測的目標
label
,只有2種選項,這就好像非題。
- 多元分類
我們已知:濕度、風向、風速、季節、氣壓.資料特徵,希望預測當天天氣(1.晴天、2.雨天、3.陰天、4.下雪)。因為希望預測的目標
label
,有多個選項,就好像選擇題。
- 回歸分析
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天氣溫。因為希望預測的目標label是連續的值,就好像是計算題。
- 非監督式學習(Unsupervised Learning)
- 強化學習(Reinforcement Learning)
增強式學習的原理,藉由定義:動作(Actions)、狀態(States)、獎勵(Rewards)的方式,不斷訓練機器循序漸進,學會執行某項任務的演算法。例如:訓練機器玩超級瑪莉電玩,動作:左/右/跳,狀態:目前遊戲的畫面,獎勵:得分/受傷,藉由不斷訓練,學會玩遊戲。常見的演算法: Q-learning、TD (Temporal Difference),常用於動態系統及機器人控制。
我們可以整理如下列表格:
分類
|
細分類
|
Features
(特徵)
|
Label
(預測目標)
|
監督式學習
|
Binary Classification
二元分類
|
濕度、風向、風速、季節、氣壓...
|
只有0與1選項(是非題)
0:
不會下雨、1:會下雨
|
監督式學習
|
Multi-Class Classification
多元分類
|
濕度、風向、風速、季節、氣壓...
|
有多個選項(選擇題)
1:
晴天、2:雨天、3:陰天、4:下雪
|
監督式學習
|
Regression
回歸分析
|
濕度、風向、風速、季節、氣壓...
|
值是數值(計算題)
溫度可能是 -50~50度的範圍
|
非監督式學習
|
Clustering
群集
|
濕度、風向、風速、季節、氣壓...
|
無label
Cluster
集群分析;目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高
|
強化學習
|
Q-learning、 TD (Temporal Difference)
|
|
強化學習的原理,藉由定義:動作(Actions)、狀態(States)、獎勵(Rewards)的方式,不斷訓練機器循序漸進,學會執行某項任務的演算法。
|
機器學習分類,可以整理如下圖:
以上內容節錄自這本書 ,很適合Python程式設計師學習Spark機器學習與大數據架構,點選下列連結查看本書詳細介紹:
Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html
博客來網路書店: http://www.books.com.tw/products/0010730134?loc=P_007_090
天瓏網路書店: https://www.tenlong.com.tw/items/9864341537?item_id=1023658
露天拍賣:http://goods.ruten.com.tw/item/show?21640846068139
蝦皮拍賣:https://goo.gl/IEx13P