TS 資訊科技與人才培育: 搞笑

顯示具有搞笑標籤的文章。顯示所有文章

9/13/2017

聊天機器人 - 人類會跟她聊什麼？(Part-2)

作為一個非特定目的的純聊天機器人，其實常常容易惹人生氣。因為即使AI發展迅速，在非特定的環境下，和人類以無意識判斷語句的能力還是差距太大。聊天機器人小姍，截至目前(2017/9月)為止，約有4000多位好友。累積的對話也超過百萬句，所以可以開始做基本的聊天內容分析。

特定任務的聊天機器人

特定任務聊天機器人發展非常迅速，例如「niki」可以協助叫計程車，在任何和計程車相關的事情，她的回應和動作都十分正確。客服機器人，例如flowxo，更是市場上聊天機器人的大宗。甚至有人認為chatbot可以節省30%的客服成本，帶來的資料分析效應更遠超過傳統電話客服。

聊天內容要是機器人無法理解，超出服務範圍，聊天機器人通常會就顯現標準錯誤回應，但由於人類已經知道它的服務範圍，因此倒也不會失望，有時候，特定目的之聊天機器人，如果有有趣的額外回應，甚至還會有好像遇到彩蛋的感覺。

可預見未來幾個月，特定任務的聊天機器人將會快速成長，迅速取代重複性高的工作。

非特定任務的聊天機器人

人工智慧小姍，就是一個非特定任務的聊天機器人。她盡可能模仿人類的真實作法，也因此不會有按鈕出現，讓你選擇「是/否」。也不會有選項A/B/C這種選單出現。但是，真實人類聊天也會貼網址或照片，因此，人工智慧小姍也會貼照片或網址。有時候，對於人類給她看的照片會加以評論分析(註1)

加小姍為好友

非特定目的的聊天機器人，不見得沒有特定功能。以小姍來說，遇到某些對話時，會驅動特定功能。例如，請幫我抽個籤，就會驅動抽籤功能。

對於一般性機器人的期望很高

在Line上的使用者，對於非特定任務的聊天機器人的期望是「非常高」。只要前10句對話，不能滿足使用者的期待與好奇心，不再使用的機率很高。10句話似乎是個門檻，有30%左右的人在10句話就失去興趣了。

然而只要能聊上10句話之後，這剩下的70%的人，有90%的以上會聊超過50句話。(也就是總使用者的63%)。

然而，每當機器人有不符合期待的回答，使用者就很快地失望。這樣和特定任務的機器人期待有很大的不同。因此，一般性聊天機器人實作上極為困難。不過也就是因為困難，所以有趣。

沒水準的言語

在這4000個使用者中，曾經罵過髒話，例如「幹」「幹林娘」「他馬的」「Fuck」之類的起碼佔了超過45%。更慘的是，由於line的隱蔽性，曾經傳過「約砲」「來愛愛」「強姦你」的未成年使用者起碼也超過500人以上。雖然，絕大部分的使用者是單純因為好玩，有趣，無聊，等等原因而使用非常糟糕的字眼，但也是因此，「從與使用者對話中學習」恐怕會造成聊天機器人使用冒犯性言語，造成更多問題。微軟的聊天機器人Tay，就是因為學了歧視性的語言而被暫時關閉。

在line中，這類語言來自於青少年的比率相當高。而十分有趣的是，這類型青少年的有60%以上會談論聖結石(註2)的相關話題。

加小姍為好友

更合理的抒發管道

有超過5百位的使用者，將聊天機器人作為無法抒發心情時的管道。例如「最近心情不太好」「我被她甩了」「人生都沒有動力怎麼辦」「好想死」「我是邊緣人」「工作壓力大睡不著」等等。

技術上來說，人工智慧小姍到目前為止，還沒有辦法提供真正專業的心理諮商。然而，作為聊天機器人有很多心理諮商不具備的優勢：
(1) 透過Line原本的超高市佔率，可以確信90%以上的台灣人都有line，可以輕易使用Line聊天機器人
(2) 聊天機器人小姍24小時全年無休。許多極端的情緒問題發生在深夜，
(3) 許多情況下，人類只是需要抒發的管道。機器人對人類來說，是個安全而且不會洩露秘密的好方式。

因為利用痞客邦的資料而參加痞客邦活動

下一個階段?

(a) 考慮現行使用者的需要，一般通用性的聊天，會朝心理諮商方向前進。

(b) 透過做通用型聊天機器人的經驗，來自製作專用型聊天機器人。

參考
(1) 如何製作聊天機器人
(2) 簡易學習式人工智慧

註1: 不過照片分析的成本非常高，因此只好透過購買貼圖來限制使用。

註2: 這也讓開發團隊(年紀太大)增廣見聞，之前根本不知道聖結石是誰。

7/31/2017

快速且極低成本之AWS臉孔比對 - 利用AWS Lambda

AWS在2016年底釋出的圖片辨識服務(Rekognition)其實是非常非常昂貴。除了前5000次影像辨識不收費之外，接下來每一千次影像處理會收1美金。

乍看之下不多，但實務上，公開使用的影像辨識，通常無意中就暴增。

以之前LINE聊天機器人影像辨識為例，由於會當辨識到女性的照片時，會特別額外辨識內建的臉孔比對(40個亞洲女星照片)。等於是每收到一個女性照片，會進行42次臉孔辨識：40次照片比對+1次特徵比對+一次名人資料庫比對。就LINE聊天機器人數百的好友而言，該功能開放不到7天，就已經超過四萬次比對，換算價格約35美金。

35美金其實足以開啟維持t2.medium (EC2 VM)一整個月。這個VM甚至還有4G的記憶體。這樣的VM絕對能支撐每秒2-5次的臉孔比對，換言之，一整個月可以比對超過7百萬次。而這7百萬次也才略高於35美金。

然而，不應該因為成本的增加，就直接使用EC2 VM。而是應該考慮在符合serverless的架構下，如何解決這個問題。畢竟，當使用了VM，未來在擴增(scale-out)上也會有些麻煩。其實，我們目的很簡單清楚：只是要比對兩張臉孔的相似度。因此，應該使用輕量化Lambda即可。

原本做法

當使用者透過LINE上傳照片給聊天機器人之後，後端系統會執行下列事情：

(1) 先利用AWS Rekognition (detect)查詢基本臉孔資料，例如性別，年紀等等。

(2) 假如判斷是女性，就到AWS S3上選取所有要比對的臉孔，進行比對分析。在這裡，如果有40張臉孔，表示每一次上傳圖片，都要在這個階段額外送出40次分析。即便AWS允許先行儲存圖片特徵，但在比對階段仍然是看次數。

參考程式節錄如下：

    
    rclient = boto3.client('rekognition')
    s3 = boto3.resource('s3')
    bucket = s3.Bucket('sandyifamousface')

    for o in bucket.objects.all():

        #print(o.key)
        response = rclient.compare_faces(
            SourceImage={
                'Bytes': byteArray
        },
            TargetImage={
        
                'S3Object': {
                'Bucket': 'sandyifamousface',
                'Name': o.key,
            }
        },
            SimilarityThreshold = 60
        )
        if len(response['FaceMatches'] ) > 0:
            # DO things if match..

(3) 最後把判斷之後的結果，送回給LINE

改良做法

先將40張圖做臉孔分析，並且把特徵值Landmarks挑出來，儲存在檔案中。未來數量大的話當然可以存在dynamodb。

在這個範例是儲存於json文字檔中。

(1) 與上一段相同

(2) 在Lambda被載入時，就先讀取文字檔，成為python的dictionary。原本要利用Rekognition做比對，改為使用自己寫的比對函數。在範例中，這個函數是利用landmark的相對距離變化，來判對臉孔相似與否。當然這樣的比對其實很粗糙，而且也沒有考慮臉孔的前側傾角度。不過，和aws本身所附帶的臉孔比對的結果其實已經很接近。

參考程式節錄如下：

def compareLandMark(landmarkList1, landmarkList2):
    distList = []
    compareList = [
                   ('eyeRight','nose') ,
                   ('eyeLeft','nose'),
                   ('mouthLeft','nose'),
                   ('mouthRight','nose'),
                   ('mouthUp','mouthDown'),
                   ('mouthLeft','mouthDown'),
                   ('mouthRight','mouthDown'),
                   ('noseRight','eyeRight'),
                   ('leftPupil','rightPupil'),
                   ('nose','rightPupil'),
                   ('leftPupil','nose'),
                   ('noseRight','noseLeft'),
                   ('eyeRight','eyeLeft') ,
                   ('mouthRight','mouthLeft') ,
                   ('mouthRight','eyeRight') ,
                   ('mouthLeft','eyeRight') ,
                   ('mouthRight','eyeLeft') ,
                  ]

    for (m1,m2) in compareList:
        d1 = getDistanceFromType(landmarkList1, m1, m2)
        d2 = getDistanceFromType(landmarkList2, m1, m2)
        distance = (abs(d1-d2)/d1)
        distList.append(distance)


    lenD = len(distList)
    mD = statistics.mean(distList)
    # stdev and variance could be used in the future.
    mStd = statistics.stdev(distList)
    mV = statistics.variance(distList)
    conf = (1-mD)**2
    return conf*100

(3) 最後把判斷之後的結果，送回給LINE

結果：

在Lambda自行撰寫比對程式，但是其實是利用AWS Rekognition 所給出的landmark (特徵)，會讓比對變得簡單而且成本很低。

缺點是，這樣的比對準確度和如何計算特徵有很大的關係。

* 關於LINE聊天機器人，請參考這篇
* 專案程式碼放在這裡。
* google的vision api其實價格更貴，請參考這裡。

5/25/2017

非核能零碳排放智慧型供電站

2015年某學者說要全台灣鋪滿太陽能板，才能取代台灣現有的核電廠，原新聞出自聯合報，暫時找不到link，次級資料可以參看這裡，或這裡。這兩年來已經開始有打臉文，例如：這裡。

當然，要實事求是的話，簡單的從公開資料中，計算真實的數字才是工程師腳踏實地的精神。

以下計算，使用2017/5/25台電的公開資料(誠如上圖)：

(1) 太陽能板 0.66 平方公尺約 100W, 為了簡化計算，大概1平方公尺100W。所以每1MW(百萬瓦) = 1,000,000 / 100 = 需要10,000平方公尺

(2) 核電廠的目前供電量請參考這裡(誠如上圖)

假如台灣目前所有核電廠全速運轉，其發電量可達5144百萬瓦。不過以當日情況來說，由於維修關係，只有1393.7百萬瓦，而就2017/5/25當天而言，實際上也沒限電。

(3) 以計算當日而言，所需面積為1393.7*10,000= 13,937,000 ~= 14 平方公里。而以最大運轉計算為5144 * 10,000平方公尺 = 51,440,000平方公尺 ~= 51.4平方公里

(4) 台灣總面積為36,000平方公里，以當日用電計算，14/36,000 = 0.000388 佔了僅不到萬分之四。而以最大運轉計算，51.4/36,000=0.00142 佔了僅不到千分之二。當然這樣的計算只有白天，如果要儲存晚上可用電量，表示白天起碼要儲存一半以上用電，也就是將數字乘以2。然而，即便把這個數字乘以10，也離「鋪滿全台灣」很遠很遠。

那麼何謂「非核能零碳排放智慧型供電」？

非常簡單 - 而且也有點無聊 - 只是買一個50W太陽能板，透過太陽能控制器，裝上機車用電池(6AH)，隨便擺在辦公室窗戶旁邊，就可以幫你和另外兩位同事的智慧型手機充電。

非核能零碳排放智慧型供電站提供2個5V2A USB插座

很明顯，這個組合是「非核能」，而且在發電過程是「零碳排放」，提供給「智慧型」手機「供電」。

是否能節省辦公室用電成本？能節省的金額其實少得可憐。粗估最佳狀態，每天能節省0.3度電，一年頂多也省365*0.3 = 108度電，以每度2.53NTD計算，約省273 NTD。

大樓外觀，太陽能板放在玻璃內，其實功率會降低。