Count 朱

2018年1月26日星期五

Machine Learning Foundations 作業二 Question 4

http://blog.csdn.net/countchu/article/details/79152973

台大線上課程的Machine Learning Foundations，作業二的Question 4

如何解這道題目？我們可以寫一支python解這道題目。

如，求Original VC Bound的epsilon (error) 的上限為多少，我們就會定義一個function：

def errorForOriginalVcBound (N, sigma):

然後將數學式子寫成代碼，放進去就好了。但這時候，遇到一個問題，如何用程式表達mH？還記得VC Dimension嗎？：

我們可以將mH(N)換成N^dvc，如此一來，式子就寫成：

於是，我們的function，多了一個參數，叫dvc：

def errorForOriginalVcBound (dvc, N, sigma):

也可以用Python定義一個function叫mH，覆用之。

def mH (N, dvc):

return math.pow (N, dvc)

Error for Original VC Bound的實作

def errorForOriginalVcBound (dvc, N, sigma):

value = 4 * mH (2*N, dvc) / sigma

value = 8 * np.log (value) / N

value = math.sqrt (value)

return value

接下來是 Error for Rademacher Penalty Bound的實作，

def errorForRademacherPenaltyBound (dvc, N, sigma):

value1 = 2 * N * mH (N, dvc)

value1 = 2 * np.log (value1) / N

value1 = math.sqrt (value1)

value2 = (2/N) * np.log (1/sigma)

value2 = math.sqrt (value2)

value3 = 1/N

return value1 + value2 + value3

再來是Error for Parrondo and Van den Broek的實作。但我們發現一個問題，就是公式的左右邊，都有一個epsilon。有兩種解法，

第1種解法，是用一元二次求x解的公式，x就是epsilon：

ax^2 + bx + c = 0

這樣，就可以推導出，只有左邊有epsilon的式子出來。於是，我們就把式子的右邊，寫成代碼即可。這是數學家的作法。

第2種解法，將epsilon當成一個參數。至於要給什麼樣的值，我們可以先觀察其它的式子算出來的結果，再做決定。我選擇第2種解法，於是，Error for Parrondo and Van den Broek的實作如下：

def errorForParrondoAndVanDenBroek (dvc, N, sigma, epsilon):

value = 6 * mH (2*N, dvc) / sigma

value = 2 * epsilon + np.log (value)

value = math.sqrt ((1/N) * value)

return value

對於Devroye而言，也是公式的左右兩邊，都有一個epsilon。實作的方法與剛才的Parrondo相同：

def errorForDevroye (dvc, N, sigma, epsilon):

value = np.log (4) + dvc * np.log (N * N) - np.log (epsilon)

value = 4 * epsilon * (1 + epsilon) + value

value = (1/(2*N)) * value

value = math.sqrt (value)

return value

這裡有一個問題是，為何function的第一行要這麼寫？那是因為當N=10000時，直接計算，數字太大，電腦無法處理。我們可用以用對數運算，將式子拆解成電腦可以處理的單元，如下：

最後是Variant VC Bound的實作：

def errorVariantVcBound (dvc, N, sigma):

value = 2 * mH (N, dvc)

value = value / math.sqrt (sigma)

value = np.log (value)

value = (16.0 / N) * value

value = math.sqrt (value)

return value

所以，我們現在有5個functions，依據題目的順序排列：

errorForOriginalVcBound

errorForRademacherPenaltyBound

errorForParrondoAndVanDenBroek

errorForDevroye

errorVariantVcBound

其中，errorForParrondoAndVanDenBroek和errorForDevroye因為都需要epsilon參數，而我們不知道該給那一個值，所以暫不管它。先求其它3個：

dvc = 50

sigma = 0.05

N = 10000

value1 = errorForOriginalVcBound (dvc, N, sigma)

print ("Error for Original VC Bound = ", value1)

value2 = errorForRademacherPenaltyBound (dvc, N, sigma)

print ("Error for Rademacher Penalty Bound = ", value2)

value3 = errorVariantVcBound (dvc, N, sigma)

print ("Error for Variant VC Bound = ", value3)

發現最小的值是0.3313。我們可以用這個最小的值，當作是epsilon的參數，用在errorForParrondoAndVanDenBroek和errorForDevroye

epsilon = min ([value1, value2, value3])

print ("epsilon = ", epsilon)

value4 = errorForParrondoAndVanDenBroek (dvc, N, sigma, epsilon)

print ("Error for Parrondo and Van den Broek = ", value4)

value5 = errorForDevroye (dvc, N, sigma, epsilon)

print ("Error for Devroye = ", value5)

所以，Devroye公式算出來的值，是最小的。

-Count

Machine Learning Foundations 作業二 Question 10 解法

台大線上課程的Machine Learning Foundations，作業二 Question 10：

這個題目的解答，可以參考網路上這位仁兄所寫的：

http://beader.me/2014/02/22/vc-dimension-three/

我也是先參考這篇文章後，思考了一段時間，才真正了解這道題目的意思。想將自己理解的過程分享大家，故有此文。

在解這道題之前，先了解題目在講什麼？什麼是Simplified Decision Trees？H所代表的是那一種型式的Hypothesis Set？我們很容易被題目裡出現的一大堆不熟悉的數學符號唬住。所以，先了解這些數學符號，才是首要之務。

我們先將d設為2，這樣可以簡化問題，去理解H到底是什麼樣的Hypothesis Set？先看看，這時候，S長什麼樣子？

S a collection of vectors in {0, 1}^2

{0, 1}^2是什麼意思？

請參考WIKI的Cartesian Product (笛卡爾積)

https://en.wikipedia.org/wiki/Cartesian_product

也可以參考數學指南實用數學手冊笛卡爾積 p644, p887, p895

所以：

於是

S a collection of vectors in {0, 1}^2

這句話就是

S a collection of vectors in {(0, 0), (0, 1), (1, 0), (1, 1)}

這又是什麼意思呢？意思是，S的集合裡的元素，是由這4個vector組合而成的：

s1 = (0, 0)
s2 = (0, 1)
s3 = (1, 0)
s4 = (1, 1)

共有幾種這樣的S？這是Power Set的概念，請參考WIKI

https://en.wikipedia.org/wiki/Power_set

所以S共有16種可能。列舉其中幾種可能：

S = empty

S = {s4}

S = {s1, s2}

S = {s1, s3, s4}

S = {s1, s2, s3, s4}

接下來，解釋這個式子：

還是一頭霧水，到底這個式子是在講什麼？有數學式子是這樣寫的嗎？我們把i拆解開來：

因為 d = 2，所以 i = 1, 2。

v1 = [[ x1 > t1 ]]

v2 = [[ x2 > t2 ]]

還好我寫過程式，可以用程式的角度去想，>做的是邏輯運算，若成立，就是1，否則為0。那麼，為何要被 [[ 和 ]] 包圍起來？這是要強調被 [[ 和 ]] 包圍起來，表示裡面是在做邏輯運算，其結果不是1就是0。舉一例：

x = (3, 4)

t = (5, 2)

v1 = [[x1 > t1]] = [[3 > 5]] = 0

v2 = [[x2 > t2]] = [[4 > 2]] = 1

v = (v1, v2) = (0, 1)

所以我們發現，原來

是在做座標轉換。什麼意思？畫圖表示：

接下來，解釋這道式子：

先看看這個意思。

被 [[ 與 ]] 包圍的，就是在做邏輯運算。意思就是，當v屬於S，則為1，否則為0。舉兩個例子：

Case 1:

Case 2:

這樣大家是不是了解H所代表的Hypothesis Set長什麼樣子的吧？其實很簡單，就是當d=2的情況下，以t為中心，將平面切成4個區域：s1, s2, s3, s4

該了解的都了解之後，我們可以開始回答問題本身：

What is the VC-dimension of the "simplified decision trees" hypothesis set?

還是一樣，先看d=2的情況，假設有4個點，p1, p2, p3, p4，是否都可以從H找到h來區分這4個點？

共有16個情況，只列前面8種，是因為將前面的8種，反過來，就是後面的8種。這16種情況，都能從H找到h，區分4個點。如上圖，要滿足第2個情況：(p1, p2, p3, p4) = (+, +, +, -)，t要擺在那裡？擺在4個點的中間。S要長什麼樣子？如下：

考慮平面上有5個點：p1, p2, p3, p4, p5

p1 = p2 = p3 = p4 = +1

p5 = -1

因為t只能將平面切成4個部份。所以，第5個點，p5，不管怎麼放，都會和另外1個點處在同一區域。如下圖p2和p5處在同一位置。這樣一下，經過座標轉換，p2和p5就貼在一起，變成(1,0)。可是同一個點，不能同時為+1，與-1，所以這種情況不可能發生。

所以：

d = 2, dvc = 4 = 2^2

t能將三維空間，分為8塊，所以：

d = 3, dvc = 8 = 2^3

然後，d維空間，用數學歸納法，可以得到：

dvc = 2^d

-Count

2018年1月21日星期日

人臉識別在無人商店的應用 (Apply Face Recognition in Unmanned Store)

去年2017年，發生了兩件事情：

2017年蘋果公司推出了iPhoneX，捨棄指紋，改用人臉識別Face ID，造成人臉識別相關應用，突然火紅起來。許多做人臉識別的新創公司，市值也倍速增長。
2016年，Amazone推出無人商店，Amazone GO。大陸有樣學樣，很快，在2017年中，開始冒出了許多無人商店，其盛況，可比當年2016年共享單車的興起。

這兩件事情，結合在一起，就是「人臉識別在無人商店的應用」。

本篇，從Machine Learning的角度，探討Face Recognition，可以用在無人商店的那些場景。對於客戶而言，無人商店有這4個場景：

商店知道進店的客戶是誰
商店能為客戶推銷商品
客戶能在無店員的情況下，為購買的商品付款
商店可以根據客戶過往的銷售記錄，給客戶相關折扣

那麼，Face Recognition是否能應用在這4個場景？其實學過台大線上課程的Machine Learning Foundations，或對統計學有基本概念的，應該可以回答這個問題。

Face Recognition和Fingerprint Verification一樣，都是二元分類的問題：

上圖是Fingerprint Verification。f表示我們有一個很明確的方法，可以知道目前這個指紋是不是你的。若是，則輸出為+1，否則為-1。結果只有兩個，不是+1，就是-1，稱為二元分類問題。

可是通常，我們找不到這種很明確的方法。我們會用機器學習的方式，找到一個與f很接近的方法，稱為g，做為驗證指紋或人臉的方法。

用g識別這張臉是不是你的，若是，則輸出為+1，否則為-1。因為g是來自於機器學習的結果，不能完全代表未知的f。大部份情況下，g的預測的結果和f的一致，少部份情況下會不一致。我們將x視為某個fingerprint或是某個face，做進一步分析：

g(x) = +1

g(x) == f(x) True Positive (TP)
g(x) != f(x) False Positive (FP) —> Error

g(x) = -1

g(x) == f(x) True Negative (TN)
g(x) != f(x) False Negative (FN) —> Error

會有以上4個情況，會有兩個型態不同的Error。

True和False，這兩值是從何而來？當預測的g和實際的f一致 g(x) == f(x)，則為True，不一致 g(x) != f(x)，則為False。

Positive和Negative，這兩值是從何而來？取決於g的結果，+1代表Positive中文稱為陽性，-1代表Negative中文稱為陰性。

為何Positive和Negative無法從f的結果得出？那是因為我們永遠無法找到f。若能找到，就不用機器學習了。

以上4個情況，我們可以整理出一個Confusion Matrix：

這兩種型態不同的Error，稱為False Accept和False Reject：

False Accept (False Positive)：誤識別

別人的指紋，識別成我的指紋。或我的指紋，識別成別人的指紋
別人的臉，識別成我的臉。或我的臉，識別成別人。如，小孩的臉可以解鎖父母的iPhone X，這種情況時有耳聞。

False Reject (False Negative)：不識別

系統不認我的指紋。如iPhone的指紋，常常不靈光。
系統不認我的臉。如iPhone X在昏暗的環境下，人臉解鎖的失敗率較高。

然後，根據場景的需要，會有兩種Cost Matrix：

Cost Matrix 1

Cost Matrix 2

Cost Matrix 1 在乎的是 False Accept。如發生False Accept時，Cost設為1000。適用的場景如下：

支付：

False Accept發生的機率要很低：若無人商店採用刷臉支付，萬一有一個人刷臉，系統誤識別為我的臉，那麼我就莫明奇妙被扣款。發生這種事情，會對無人商店的品牌信任度造成極大的損失。
False Reject發生的機率不用太低：頂多刷臉支付失敗，再刷一次就好了。

手機解鎖：

Fase Accept發生的機率要很低：駭客想用指紋登入我的手機，萬一真的被試成功了，我會造成很多損失。
False Reject發生的機率不用太低：頂多指紋登入失敗，再按指紋一次就好了。

Cost Matrix 2 在乎的是 False Reject。如發生False Reject時，Cost設為10。適用的場景如下：

商品推薦

False Reject發生的機率要很低：若無人商店根據人臉，為客戶推薦商品。若False Reject機率太高，識別不出客戶，就無法為客戶推薦商品。商店可能會有營收上的損失
False Accept發生的機率不用太低：無人商店誤識別人臉為另外一個客戶，為客戶推薦錯誤的商品，這件事情的嚴重性，比識別不出客戶而不推薦任何商品，要來的低。

折扣

False Reject發生的機率要很低：若無人商店根據人臉，給客戶折扣。若False Reject機率太高，識別不出客戶，客戶拿不到折扣會不高興。
False Accept發生的機率不用太低：無人商店將陌生人臉誤認為另外一個客戶，而給陌生人折扣，這件事情的嚴重性，比識別不出客戶而給任何折扣，要來的低。

是不是有一個方法讓False Accept和False Reject發生的機率都變小？Face Accept Rate (FAR)和False Reject Rate (FRR)之間的關係，是一個 DET 曲線 (Detection Error Tradeoff Graph)：

FAR = (False Accept) / (True Positive + False Accept)

FRR = (False Reject) / (True Negative + False Reject)

若透過Machine Learning找到一個g，它的FAR愈小，FRR就愈大，反之亦然。

回到客戶在無人商店的4個場景，看看Face Recognition可以應用在那些方面。

商店知道進店的客戶是誰
商店能為客戶推銷商品
客戶能在無店員的情況下，為購買的商品，付款
商店可以根據客戶過往的銷售記錄，給客戶相關折扣

1 商店知道進店的客戶是誰

此場景可以用Face Recognition實現，並且重點在FRR要盡可能小。

2 商店知道進店的客戶是誰

此場景可以用Face Recognition實現，並且重點在FRR要盡可能小。

3 客戶能在無店員的情況下，為購買的商品，付款

用Face Recognition實現刷臉付款，非常危險，即使FAR可以設非常小，也會有問題。根據2015年FDDB為各家的Face Recognition分析，發現在FRR<=70%的情況下，FAR可以達1/2845。意思就是2845次刷臉，會有一次出現FAR。若無人商店的註冊人數突破2845，那麼FAR出現的次數就會更頻繁，會造成災難性的結果。

所以，完全靠刷臉支付，不可行。那我們會想，結果其它的Biometric Authentication，如指紋、虹膜、或聲紋，是否會好一點？這是所謂的Biometric Multi-Factor Authentication，還是會有FAR的問題。另外一個方法是，Biometric Authentication後，要求客戶輸入簡單的PIN碼，但還是有可能，誤識別的客戶，PIN碼剛好和另一個客戶一樣。

我個人認為，無人商店，在免密支付的過程中，不應該用任何生物識別技術(包含人臉)驗證客戶的身份，做為支付與否的依據。

4 商店可以根據客戶過往的銷售記錄，給客戶相關折扣

此場景可以用Face Recognition實現，並且重點在FRR要盡可能小。

-Count