TS 資訊科技與人才培育: 軟體工程師

顯示具有 軟體工程師 標籤的文章。顯示所有文章

9/06/2019

如何建立信任關係 (成為主管的31堂課)

一個好的主管，會讓其團隊成員高度信任，在軟體開發團隊中，如果主管可以有效地和團隊成員建立健康的信任關係，就容易達成三贏效果：對企業有利，對團隊有利，也對個人有利。相反的，如果團隊主管不受信任，那麼組織內部就容易內耗，很容易就形成三輸的情況。普通的團隊則是部分成員信任團隊主管，部分則不太信任，主管意識到這點，其實是很有改善的機會。

何謂信任？

信任並不是說團隊成員要變成主管的莫逆之交，在危急的時候就算赴湯蹈火也都在所不辭。當然可以達到這點很好，但在企業團隊內是不太可能。所謂信任是指，團隊成員對主管決策方式以及最做事方式，有預期感，並能相信這樣的決策和做事方式，即便自己不了解，甚至不完全贊同，也願意有效的合作。

如何建立信任。有些事情對於建立信任的雖然有一點點幫助，但效果有限，例如典型的團康活動。有些事情則是對建立信任有決定的影響：

(一) 傾聽了解個別成員：

信任是「個人」心理狀態，因此，有效地傾聽個別成員在組織的需求，針對個別成員的需求，量身定做互動的方式。

傾聽的重點在於「傾聽」，中途插話，表達太多意見都不是傾聽的要訣。

(二) 共同接受並完成工作上的挑戰：

這和傳統軍隊建構團隊的方式雷同。一小組人一旦一起面對挑戰，並且度過挑戰，就容易互相信任。在經歷生死戰場的退伍軍人戰友，特別容易建立長期的信任關係，就是因為如此。
當然在企業環境大概不會有生死攸關的情況，但仍然有許多挑戰。好主管的要務在於對挑戰的本身必須要是正面看待，

例如：在跨國企業中研發團隊總是對某國家的另一些工程師作法相當不認同，並常在討論中發生意見衝突。團隊常常對主管抱怨狀況。不適任的主管在此最容易做的事，就是一起跟著抱怨，並且將責任歸於其他人，試圖在團隊塑造共同敵人，這樣短期團隊成員或許會開心，但是衝突並不會因此解決。一個好的主管，會將這狀況是為共同挑戰，讓團隊成員明白如果我們可以一起解決這樣的衝突，不但對組織有好處 - 可以讓跨國團隊更有效工作，對自己也有好處 - 在履歷表中就可以多一項很難得的成功經歷。

(三) 建立一致性：無論任何事情的好壞

建立一致性是在不公平的社會環境中，讓團隊成員認為主管會公平處理事情的最有效方式。所謂的一致性，倒不是指不能改變作法，而是指作法本身有可預期的一致性。

例如，在營運團隊中常常有假日需要輪值的情況，最簡單的方式是直接按照姓名或者到職日期，輪流安排成員在假日值班。表面上看起來是最最公平，實際上有可能是公平，但也有可能不公平，因為每個人上班期間的工作內容可能不同。一致性並不是說不應該輪流值班，而是指輪流值班的班表如何取得共識。例如，每次班表都是每3個月前產生，產生之後，會在兩週內先逐一詢問個別的需要，個人的需求被滿足後之後，在隨即email公布並詢問有沒有需要調整，並且在一週後正式啟用此輪班表。幾次之後，團隊成員對主管的做事方法就有一致性，知道主管在困難事項一定會先詢問個人，調整每個人狀況，還會在所有人面前再度公佈一次，然後再做最後調整。

這樣一次一次建立一致性，無論事情的好與壞，也無論主管個性，就容易建構工作上的信任關係。

9/02/2019

Scrum的缺點 (成為主管的31堂課)

當手上有榔頭，看到任何東西都像釘子 -- Abraham Maslow 1966
------

過去數年來Scrum明顯成為Agile軟體開發裡最常被討論跟使用的方法。

當然也有不少文章討論scrum的缺點(請參考這裡)。然而，Scrum是個在agile development範疇內的方法論，它是個很好的參考軟體開發流程的工具，而這工具有其「特性」，無所謂好與壞，當然就無所謂優點與缺點。

然而，這些特性不可否認，需要對該工具有一定的認知，特別是一些「預設要知道的事情」，以免誤用。舉例來說，當你使用榔頭的時候，大概會知道它是用來釘釘子，而不是拿來釘螺絲。此外，你也會大概猜到，右手拿榔頭左手扶著釘子時，要記得不要敲到自己的手指。

以下Scrum缺點（特性），也是常見的陷阱僅供參考。

(1) 團隊成員對Scrum的了解必須一致，工作能力最好也要差不多。

Scrum的運作中，高度依賴成員的自主性。Scrum Master雖然很重要，但僅在於Scrum本身的運作。對於任務完成的定義以及任務的品質，還是靠所有成員的能力。

換言之，如果有人技術能力特別糟糕，或者技術能力雖好，但對於Scrum的運用與瞭解和大家都不一樣，那麼有可能會有意想不到的長時間磨合期。

(2) Scrum並不會真正加快速度，只是讓速度透明，讓大家專注重要的事情。

許多企業導入scrum的目的是為了加速產出。事實上，Scrum並不會加快「某件事情的速度」。Scrum會讓事情變得透明，同時也讓團隊進行的速度變透明，讓大家更容易專注於正確的事情上。

整體來說，Scrum會減少各種不必要的浪費，讓整個專案效率提升，但就個別事情的速度而言，Scrum並不會提升。換言之，軟體工程師仍然需要有自己的方式來提升個人效率。

(3) Scrum並不會解決工作內容的相依性

傳統的專案管理方法論，常常會提供類似甘特圖的工具。然而，Scrum方法論專注於某件任務(story)的完成，而隱含著希望每個任務的相依性，會在團隊成員的「成熟考慮」下被處理完成。

換言之，有相依性的工作就是有相依性的工作，軟體開發團隊還是必須要有自己的方式解決相依性。使用scrum並不表示相依性消失，也並不表示當有個寫得很獨立的story產出時，就一定會跟其他工作無關。這些都還是得靠團隊來處理。無論是使用Jira還是agilefant還是任何工具，都應該有自己的處理相依性的方式。

8/26/2019

系統化思考的秘訣 (成為主管的31堂課)

系統化思考 Systems Thinking 是解決複雜困難問題的科學方式。而作為主管的工作，時常遇到困難的狀況，如果身為主管的你沒有一個科學性的方式來分析與處理困難狀況，自認可以依賴直覺和經驗，那麼很有可能你依賴的是運氣而已。

案例一：有位資深的HR M，憂心忡忡的問說，過去三個月我們的資深工程師招募好像不順利，快要一百人無法通過我們的評估，Hunter看到我們這樣都不太願意再送履歷表來了。我們是不是標準太高？要不要降低標準。

案例二：某主管A被要求和直屬於CEO辦公室的專案經理D合作進行系統整合，然而專案經理D常常會有不合理的要求，並常在會議中酸言酸語，讓A在系統整合上花了很多人力時間，但又打不到D的要求，而D又有CEO作為後盾。

上述案例都很複雜，牽涉的範圍廣泛。為了解決複雜問題，系統化思考會牽涉到各式各樣圖形工具，例如這個，或者這個。這些圖形工具其實都是為了簡化問題。系統化思考的理論與應用廣泛，但是針對軟體主管的工作特性，有幾個祕訣(捷徑)可以先試看看

(1) 無論如何，先畫張心智圖或者魚骨圖。

心智圖可以拓展思考，魚骨圖可以先探索遺漏因素。更重要的是，圖形可以將你的思考模式放在紙面上，讓你用鳥勘的方向，有機會重新思考問題。並且，這圖型還可以留供未來檢討使用。

(2) 無論如何，先透過5Why找到真正的目的或原因。

以上述案例一，當我們先從一個方向使用5why探究原因，可能如下：

為什麼HR會覺得不順利？是因為招募人數不足。為什麼招募人數不足？是因為hunter不願意積極尋訪多送履歷表。為什麼hunter不積極？是因為我們篩選比較嚴格。為什麼篩選比較嚴格？是因為....

但是，從另一個方向使用5why可能如下：

為什麼HR會覺得不順利？是因為面試的多但都沒錄取。為什麼面試多但都沒錄取？是因為hunter送來的履歷不符合我們徵才的要件。為什麼不符合？是因為hunter不了解我們要什麼樣的人才。為什麼不了解？是因為....

找到事情的真正源頭，或者自己想達成的真正目的會是系統化思考要達成的第一個目標。

(3) 實驗性質的行動！兵聞拙速未睹巧之久也

任何形式的研究調查，都可以無限期地進行下去，可能永遠都不會有結果。然而作為主管，透過行為有效的將事情推進下去才是重點。

案例二：當展開5why與心智圖，了解CEO的辦公室經理D其壓力來自CEO對他有時間限制時，而D由於無真正的技術能力，導致會將各種事情盡量轉交給主管A，探究其目的在於，萬一整合失敗，不會被歸咎責任。而A的做法就是互相對抗，兵來將擋。這樣的情況，可以持續下去永遠沒有結果。而後改變的做法是，先實驗性透過提供各式各樣教育課程給D的部屬，讓其部屬更了解系統如何運作，並且在各種會議中提及教育訓練一事，讓CEO理解其直屬的團隊的能力不足，因而會讓系統整合的設計本身交由A來進行，自然系統整合的最後結果就會順利達到CEO要求，也讓A與D之間的關係不會永遠惡化。

案例二看似政治問題，但其實透過實驗性質的活動（提供教育訓練）可以讓A快速證實D的團隊能力不足，即便教育順練活動辦得很粗糙簡陋也可以。

提醒一下，無法進行系統化思考的主管，最後更容易透過「恐懼」「運氣」「政治手段」等方式來管理團隊，至於能否達到目的就很難說。

3/17/2019

自我感覺良好的能力不足: 預防與解決之道

在軟體開發團隊的招募中，技術能力當然是不可或缺的一環。候選者如何自己評斷技術能力，也許和如何評估候選者的技術能力一樣重要！

換言之，謙虛的人比自我感覺良好的人，可能實質上的能力更好。這在「達克效應」中說明得十分清楚。

達克效應簡單的說：是指能力不足的人通常會高估自己的能力無法正確判斷自己能力的不足。不過經過提高能力之後，是可以認知到過去能力不足的事實。
這個理論雖然廣為人知，但真正去證實的人很少，因為大家總是覺得很合理，

該論文研究分為四例，無論是哪個例子，結果都類似下圖(註1)

本圖取自論文：Unskilled and Unaware of It: How Difficulties in Recognizing One's Own Incompetence Lead to Inflated Self-Assessments

該圖是取自研究案例二，研究者讓所有受測者考一個邏輯考試，這邏輯考試取自於美國的法律學校入學考(LSAT)，主要看一個人的邏輯思考是否完整，有興趣可以參看這個網站。

當然考試不是重點，考完試之後，將結果分成四組人，最差的就是bottom，最好的是Top。所以在上圖中，很明顯bottom組的結果當然是在最下方。但有趣的是在於，最爛的一組，在預測自己的成績與能力，卻是和實際上差距很大！次佳組(3rd)其實實際成績和自我預測最接近。而成績最好的那組，反而感覺非常「謙虛」！？是唯一反而預測自己考得不好，同時也自覺的不好的一組。但實際上考的成績卻是最好的。

研究有四個案例，考試的範圍跟內容各有不同但結果很一致。

這篇論文，雖然很直觀，但寫得有點幽默，所以竟然還得了搞笑諾貝爾獎，細想其實很有啟發性。尤其在組織中，員工的自我感覺良好是績效評估產生問題的最大因素之一，那麼在組織中有什麼樣的解決方式呢？

預防的方式：招募時的預防

尤其是軟體開發團隊，招募一個謙虛的人，比招募一個很有自信的人更容易找到真正有能力的人。倒不是說有自信是不對的，但自信心往往容易落入低能力的範圍（請參見上圖)。

要判斷自信與能力最簡單的方式有兩種：一者，就是根據過去實際的產出內容來衡量，例如詢問他過去工作中，實際上做了什麼事情，導致於貢獻的產生，而不是只問了貢獻的結果。其二，設定簡單的測試環境，例如直接在白板上討論演算法問題。

解決的方式：衡量產出而非能力

絕大部分的企業組織都知道，衡量員工的績效乃是基於產出，並非能力。當然，能力好的人自然有機會有更高的產出。

在軟體開發團隊中，衡量產出極其困難。每個團隊幾乎都因人而異。有幾個方式倒是可以適用於大部分的狀況
(1) 員工自評，並且加上3位以上的同僚互評。
(2) code review
(3) quality

由於最近比較忙，關於產出的衡量有機會再寫。:)

------
註一:本圖擷取自該論文本身：https://pdfs.semanticscholar.org/e320/9ca64cbed9a441e55568797cbd3683cf7f8c.pdf

8/19/2018

企業巫醫：創業初沒準備好就先別找工程師（讀書心得）

Don't hire a software developer until you read this book是一本有趣的書，它的副標題是：學習如何管理應用程式的開發流程，確保你的手機程式，網站，網路應用的產品會成功做出來。

這本書和一般的企業巫醫做法略有不同，它只專注在一個單純面向，就是「非軟體人員如何建構軟體開發團隊，並且做出自己要的產品」。實務上，它是一本工具書。裡面的Pro Tips直接而且不廢話的指出應該要的做法。

這本書花了好幾個章節，大致闡述了近年來軟體開發的相關技術與運用，並把重點放在非技術背景的創業者，如何組織建立軟體開發團隊，並且讓團隊往期待的方向前進。

做得到書上的內容的人，大概就是程式設計師心中的好老闆，或者是好ＰＭ。

然而，這本書其實也非常適合給「程式設計師」閱讀

它展示非技術人員領導軟體產品開發「真正關心」的地方：也就是實際產出。至於開發人員使用的程式語言，使用的軟體工具，甚至想要把產品做的完美...這些都是不是考慮的要務。

例如，在書中說明新創產品開發常犯錯誤的幾條

(1) 為求完美把錢燒光了：

MVP需要的是最小規模的產品以及最好的品質。但太追求完美因而增加太多附屬功能，在作者來說是一種無法控制的浪費

(2) 輕忽看似很小的需求規格改變

例如某些開發人員會說「這不會花太長時間，只是把按鈕從這邊移到那邊」。開發人員當然會負責搞定，但是要求預估時間是創業家一定要做的事情

(3) 忽略測試

測試的重要性應該不用多提。然而非技術人員很容易忽略測試的重要。

(4) 即將上線前做需求改變

對作者來說，這等同於自殺任務。其實資深的軟體工程師在內心深處都很清楚這點，但是創業者或PM想要自我毀滅的時候，又有多少人可以阻止？

(5) 開發中後期增加人力以加速開發

在人月神話這本書中有很長的篇幅描述，很多時候增加程式設計師只會讓專案速度更慢。

此外，一般開發人員也可以透過這本書獲得Lean-Startup的精神概念與實務上Agile開發的整合。
舉例來說：它說明了Agile原則，以創業者的角度，來看agile的各種方法論對軟體開發的好處。並且也拿實際工具(Trello)，展示一個創業者實際對開發團隊該做的動作，連同移動Task Card都說明很清楚。MVP，如何做出最小可行規模的產品。從創業者的角度，來看這些工具，其實更可以讓軟體工程師知道專注於最小變動需求的好處。

8/15/2018

Scrum: 三件不能少的事

Scrum是敏捷開發原則下，目前在軟體產業裡常見的方法論。而由於Scrum只是個方法論，並沒有所謂的標準，各個組織的應用方式皆有不同。常見的應用(practice)，例如：spint-kick-off-meeting, daily standup, burn down chart, planning poker, retrospective。

零零總總的practice中，哪些最為重要當然眾說紛紜。考慮到Scrum的真正精神，以下三件事情是「最基本要有的」。也就說，如果這三件事情做不到，那麼其他事情做到也沒有用。

(1) 每個Sprint有交付具體產出

Scrum的Sprint都要有具體「可交付」的產出。sprint的開始，就應該以「結果」為計畫的導向，而此結果必須要是可交付的產出。

有些團隊會以Sprint長度不夠為理由，設定一個「並不能交付」的milestone作為該sprint的產出。如此一來會有幾個問題：(1) sprint結束的檢討，並不基於產出的事實 (2) kick-off下一個sprint的意義不大，因為前一個sprint並沒有真正可在市場衡量的產出 (3) PO會有充足的理由不參加demo以及下一個sprint的kick-off，畢竟這個sprint沒有有意義的產出，而如此一來PO就很容易不真正加入團隊。

Sprint不見得要固定長度，請參考這裡。

(2) PO有確實加入Scrum團隊

Scrum團隊成員有三個角色，team member, scrum master, product owner。其中最容易不在的人，就是product owner。許多軟體開發團隊，product owner就是PM。但無論如何，Product owner必須要真實參與團隊。

所謂真實，指的是所有standup應該參加，在團隊運作過程，能夠回答該sprint的需求問題，並確實知道sprint中間「不應該做的事情」以及sprint開頭結尾「應該做的事情」

更重要的是PO加入團隊之後，DOD(definition of done)的標準才會具有「市場一致性」。舉例來說，不成熟的軟體研發人員常會對事情做完有不同的定義：
「程式寫完只是還沒review，所以還沒merge」
「程式寫完測試也沒問題，只是QA還沒通過」
「功能搞定了，QA也沒問題，只是還沒...」

PO確實加入後，可以讓事情做完的定義，統一在於「可準備交付到市場」。換言之，所有和程式設計相關的工作：測試，相關文件，環境設定，certificate等等都會以「可準備交付到市場」為原則。沒有這個原則，跑Scrum很難達到預計效果，要達到這個原則，最基本的就是PO需要確實投入團隊。

(3) 每個Sprint結束之後有確實地檢討(Retrospective meeting)

這世界上沒有完美的團隊，也沒有不用修正的軟體開發方法論。每個sprint的確實檢討，是修正團隊，讓團隊趨於一致的唯一方式，而非強加訴諸任何規矩。請參考這裡

確實的檢討並不容易，要做到兩件事情：
(a) 基於事實檢討
(b) 不檢討不在場的人事物

基於事實的檢討

檢討的內容必須基於事實，不是基於感覺與想像。感覺和想像的情況如下：
「我感覺好像有點慢」
「不知道怎麼講耶但這個事情不應該這樣做」

事實的情況舉例如下：
「這個sprint我們沒有按照當時說好的DOD的定義，所以有XX與XX項目，本來說完成了，後來隔幾天又說沒完成」

不檢討不在場的人事物

檢討確實是對事不對人，然而，事情都是人做的，不可能不檢討「人的做法」。不檢討「人的做法」只是鄉愿。

不過，要避免檢討不在場的人。
例如「因為UI/UX之前給的東西不正確，導致我們要重做某些事情」如果UI/UX是同一個scrum團隊，那麼檢討此項目當然可以。但要是不是同團隊就沒有意義。
因為，Scrum的檢討會議目的是產生「團隊要改善的項目」，而不是去讓非團隊的人改善。

Scrum的學習必然是從實際的經驗獲得，但經驗的獲得又必須從知識學習的取得為基礎，要成為看似不錯的Scrum專家不難，但要實際應用於專案中，並取得可重複成功的結果就不這麼容易了。

12/24/2017

沒有QA？如何確保軟體開發品質

任何軟體專案或產品，達到高品質是開發團隊必然的目標。不過高品質並非垂手可得，它需要團隊的共識和努力才能達成。

確保品質有很多方式。過去常見的方式是瀑布式開發方式(waterfall)中，在程式設計師確定code complete之後，靠QA/QT/QC(註1)來執行測試，並且在測試週期中，驗證是否符合設計規格，並記錄追蹤問題(bug)，有時候甚且扮演催促修復的角色。因而，特別是大型團隊，專門「處理」品質的QA角色十分重要。很多時候，團隊可能面臨沒有QA的狀態，此時要如何確保品質呢？

為什麼會沒有QA

有時候，環境造就沒有QA的局面。例如，新創公司可能也只有5個人，無法有專責QA。又例如，大型企業中因資源分配不均，導致某些專案無法有專責QA。

但更多時候，沒有QA指的是，沒有能做「真正QA工作」的人。也許團隊裡面有許多人持有QA的職稱。但很可能僅做到QC/QT的工作(註1)。實務上，在軟體開發團隊中，實際做的事情其實比職稱來的重要。就品質的角度而言，QA大部分的時間應該花在開發循環「前期」或者「中期」。以Scrum中的Sprint來說，在kick-off時，QA應該花最多時間在定義DOD，決定產出的評斷標準，在sprint每天活動中，QA應該花時間在檢視產生的程式碼(code review)並且透過每個工作產出，主動改善現有品質。換言之，QA應該比單純的程式設計師，更會程式，更知道系統的交互作用細節，並能透過直接或間接修改程式，直接影響開發過程中的品質。因為，開發前中期的品質修正，效果好，成本低，遠比開發「後期」再來幾個測試循環來的有效！

簡要的說，能真正做QA工作的人，必須能比程式設計師團隊更會寫程式。起碼也要是「曾經」非常會寫程式。

如果團隊不巧沒有這樣的人，有三種方式可以在沒有QA的情況下確保軟體開發的品質：

方式一：Scrum

Scrum方法論中，概念上每個Scrum成員都是「同樣質量」。換言之，Scrum進行中重視的是產出，每個SPRINT的結果是「可交付的東西」。而Sprint中間要完成的細項，應該將品質涵蓋入內，而由自行取得該任務的人，完成其保證。

有許多作法和上面這段熬口的說明有關。首先，DOD (definition of done) 除了涵蓋unit-test之外，其實應該也涵蓋整合測試。如果不涵蓋整合測試，就應該另外有一個任務是專做測試。並且，每個story完成中，必定涵蓋這個story應該要有的使用測試(用以檢驗規格)以及回歸測試(用以檢驗是否有副作用)。這些測試，可以單獨成為一個工作，也可以作為DOD的一部分。

無論如何，基本概念是：「人人應該都可以生產程式碼，當然人人應該都可以測試」。實際執行時，或許有些人比較常「拿到」測試工作，但這並不代表這些成員就只是進行測試而已。有些人比較常拿到「寫程式性質」的工作，但並不代表這些人不負責品質。

Scrum的團隊重視每個Sprint的共同結果，此結構也讓沒有QA也能達到高品質。因此Sprint的長度不能太長，太長就會落入「團隊中自行區分QA和Engineer」的後果。

方式二：Pair Programming

Pair Programming是指兩個人一起用一台電腦，一個鍵盤來共同寫程式。這作法在2000年左右發展的Extreme Programming被大大推崇，不過能有決心推動的團隊並不常見。

由於Pair Programming讓每段程式碼至少都會被兩個人看過，而且在頭腦中想過。它可以避免大部分的低級錯誤(拼錯字)，也可以避免懶人錯誤(程式風格，漏寫unit-test)，然而，更重要的是它讓兩個程式設計師的真實想法，在執行同件事情的時候被「好好溝通」。而這更大幅避免對設計或需求的誤解。

Pair Programming似乎有效率和產能上的疑慮，但無論如何，它確實是在沒有QA的情況下，確保開發品質的絕妙方式。強烈建議閱讀一下wiki上的Pair Programming最下面的參考論文。

注意！

前兩個方式雖然符合敏捷開發的精神，並且能從系統結構層面，解決問題。然而，這兩種方式都必須要有結構性的改變，除非是剛剛成立的新團隊，要造成結構性的改變很困難，而且，即便做的好，也得花上其他心血才能有「能見度」，有能見度，才有所謂的功勞。

有兩個古時候的例子：

(a) 鶡冠子扁鵲：扁鵲曰「長兄最善，中兄次之，扁鵲最為下。」魏文侯曰：「可得聞邪？」扁鵲曰：「長兄於病視神，未有形而除之，故名不出於家。中兄治病，其在毫毛，故名不出於閭。若扁鵲者，鑱血脈，投毒藥，副肌膚，閒而名出聞於諸侯。」

(b) 孫子兵法：故善戰者之勝也，無智名，無勇功，故其戰勝不忒。

然而，對於一個軟體專案的主管而言，這些結構性的改變才是自己真正的價值。即便價值很難被衡量，但價值會永遠存在自己的手上。

如果短時間難以改變環境，可以考慮以下的方法三：

方式三：Part-time & Automation

工讀生(part-time student)和自動化測試(automation)似乎是兩個不同主題，但就確保軟體開發品質而言，把他們當做「一件事情」來處理，會有驚人的效果。

簡單的說，就是雇用3至4個優秀的工讀生，每週上班2-3天，組成工讀生團隊，執行測試任務，並且在熟練測試任務之後，開始進行測試自動化撰寫，並且在小組長(team leader)帶領下視情況參與更多品質管理的事情。這聽起來是個繁複的事情，但執行起來，遠比方法一二簡單。

其步驟如下：

(a) 選定一位以後想要朝專案經理或主管方向前進的優秀資深工程師，讓他作為工讀生團隊小組長

(b) 到各大學相關科系徵求大四以上的長期工讀生，一般來說，只要能妥善說明對他們未來就業的好處，通常可以找到足夠優秀的人。工讀生至少需要在職6個月以上。

(c) 組成團隊後，第一個月僅只需要熟悉目前軟體系統，第二個月才開始讓他們執行測試計畫，回報並記錄問題

(d) 在此過程中，由小組長指定測試內容和範圍，換言之，這段期間，其實小組長才是扮演QA的角色。而其他成員都可以將繁瑣的測試交給工讀生。然而，程式的品質仍然是所有成員負責，工讀生不在Scrum的範圍內，因此不「負擔責任」。

(e) 當測試進行2個以上SPRINT，工讀生應該已經開始覺得測試是很煩人的事情，但也應該知道品質對產品的重要性。這和在學校做專案計畫有天壤之別。因此，就可以開始由小組長領導工讀生進行測試自動化。

(f) 測試自動化並不期望把所有整合測試/回歸測試，100%統統自動化。只要把「簡單瑣碎」的測試自動化，通常就能節省一半以上的時間

(g) 通常六個月後，3-4人的工讀生團隊就能完成部分整合測試，和大部分的回歸測試。而下一輪的新工讀生，可以選擇從頭開始打造新的測試自動化，也可以接手前期工讀生做到一半的自動化。打造新的自動化通常可以用新的工具，新的角度來測試既存系統，可以讓品質在一次提高。接手前期工讀生的自動化，可以讓自動化範圍更廣，空出時間來做其他的事情

工讀生進行自動化測試的開發，對組織，對小組長，對工讀生有三贏的效果。(參考：實習生的三贏)

組織：讓沒有QA的團隊，能確保高品質的產出。除了要花些微的工讀費用之外，讓團隊成員能把瑣碎的事情下放給優秀的工讀生，使團隊成員能集中心力，但又同時負責個人生產的品質。同時，由於利用工讀生來培養小組長，讓組織能了解這個資深工程師，適不適合作為領導者，萬一不適合，頂多也是犧牲工讀生而已。

小組長：沒有人生下來就會當主管，當主管必須要有經驗，而工讀生團隊是主管最容易讓資深工程師測試自我的地方。因此小組長可透過這獨立運作的團隊，練習各種管理技能。

工讀生：大部分優秀的大四以上學生，都猜得到業界和學界的差異。許多人可能會在暑假應徵summer intern，然而其實短短兩個月，通常會做比較獨立的專案，雖然都很有趣，但是和在學校有很大的不同。加入實際開發團隊，即便只是做測試，也能了解「現實和學校」的差距，並且體會到軟體專案開發時，品質的重要性。讓有此六個月經驗的工讀生，更容易在未來找到更好的工作。

註1：關於Quality Control, Quality Test, Quality Assurance, test engineer, SQA的各種工作角色的區分，請參見wiki。然而，誠如前所述，工作角色名字不重要，做出事情才重要。

11/16/2017

軟體專案管理 - 版本控制系統內的程式碼基本分析

孫子兵法：夫未戰而廟算勝者，得算多也；未戰而廟算不勝者，得算少也。多算勝，少算不勝，而況無算乎！

任何軟體開發專案的基礎都是「程式碼」。即使，專案經理不需要親身撰寫程式碼，但是必然要能夠透過程式碼，取得專案關鍵資訊，作為專案領導管理的最佳參考。(關於專案進度，請參見這篇。)

版本控制系統(git, cvs, p4, svn等等)，則是有效控制程式碼的基礎，開發過程大部分的事情會發生在這裡，也應該發生在這裡。

如果你的軟體開發專案，沒有使用版本控制系統！！？？...呃....請參考註1。

版本控制系統「至少」可以提供以下這些重要而且基本的訊息給專案管理者：

(1) 截至目前為止，有多少人實質參與專案
(2) 截至目前為止，專案的實質規模(程式碼檔案數量行數等等)
(3) 一段時間內，此專案程式碼品質的推測
(4) 一段時間內，例如過去48小時，軟體團隊的實質產出
(5) 一段時間內，例如過去7天，有沒有人在非上班時間內工作

專案管理者(或者Scrum Master)應該自己取得這些訊息。為什麼？？

"Доверяй, но проверяй"
- 俄羅斯名言，意思是 Trust, but verify

冷戰期間美國總統雷根特別愛用此名言，根據wiki說明，雷根是受到一個作家的影響

因為，過去專案管理者常見兩種極端：

(1) 極端放任自由：在Scrum的精神下，雖然每天站立會議和燃燼圖，都可以揭露專案最確切的進展，完全相信成員的口頭回報
(2) 極端間接的繁複審閱：在沒有技術背景的情況下，透過頻繁而起瑣碎的會議，加上各式各樣文件追蹤，試圖了解目前進展。

這兩者都有明顯的問題，Trust, but verify才是正確做法。以Scrum的精神取得每日進展，並且，專案管理者應該「自己」想辦法檢查。專案管理者，如果沒辦法自己檢查，表示對此專案的本職學能不足。(註2)

專案管理者能夠做的程式碼基本分析有很多。好的專案管理者，至少需要能自己「動手」，利用工具或者程式，透過事實，了解下面三件事情：

(a) 基本專案狀態分析：哪些人寫了哪些程式碼
(b) 哪些程式碼檔案很重要：某些程式碼就是常有問題
(c) 哪些人需要額外關注：某些人工作壓力大常加班

以下以git為例，其他版本控制系統也能做到類似的事情。

基本專案狀態分析

靜態程式碼分析工具有很多。例如，gitinspector可以揭露整個專案的大致情況。gitinspector的安裝使用請參考這裡。
以github上的serverless.com為例，在github上clone這個專案，並且執行#gitinspector的結果如下：

首先會大致列出作者和過去的產出摘要，例如Aaron在這個專案一共commit了8次，包含170行程式碼跟刪除87行。這個表當然不能作為績效考核用途，但是可作為參與度的重要參考。很明顯的Austen鐵定比Chris的參與度高很多。

接下來隨即會列出還存在的程式碼行數。以Austen來說，他還有2713行的程式碼存在。和他的總新增行數與刪除行數有很大的差別。這很有可能是他參與了開發初期，而開發後期的版本沒參與。

哪些程式可能容易有問題？

程式設計師每天辛勤的工作，自然會知道哪些程式常出問題。而專案管理者必須要由技術面來獲取正確的資訊。版本控制系統會記錄每次程式修改的原因(如果commit的備註正確的話)。最簡單列出「要注意的哪些程式碼檔案」

git log指令，可以加上 --grep=<string> 來濾出字串，以下例子只用fix當作過濾條件，並且配合linux其他指令：sort, uniq 就做出簡單的報表：

~/serverless# git --no-pager log --name-only \

--grep=fix  --pretty="%s" | sort | uniq -c | sort -n

     19 lib/ServerlessState.js
     19 tests/tests/actions/ResourcesDeploy.js
     20 lib/ServerlessProject.js
     23 lib/actions/EndpointDeploy.js
     23 lib/actions/ProjectInit.js
     23 lib/actions/RegionCreate.js
     23 lib/SerializerFileSystem.js
     24 lib/Serverless.js
     25 lib/actions/ResourcesDeploy.js
     25 lib/actions/StageCreate.js
     25 tests/test_utils.js
     27 package.json
     27 README.md
     28 lib/actions/FunctionRun.js
     34 lib/actions/FunctionDeploy.js
     38 lib/actions/FunctionCreate.js
     55 lib/utils/index.js
    101 tests/all.js

當然，以上報表只是列出有fix字串的commit中，哪些檔案出現次數最多。 tests/all.js 明顯是最多的，但也很明顯這檔案本來就是會被一直修改。此外，README.md也是一樣，大概也不是真正有問題。不過其餘的檔案倒是可以額外關注一下。

程式有問題的的判斷方式有很多，除了在commit的紀錄中說明是[fix]或[bug fix]之類。但也可以考慮總行數，刪除的行數，增加的行數，並且配合QA/bug tracking系統，才較為完整。

哪些人需要額外關注？

「人的問題」，永遠是最難解決的問題。然而，卻也是要優先解決的問題。組織中必然有需要「被關心」的人。

專案組織中，最要被關心的人是「表現好且有潛在壓力大」，以及「表現不好且對團隊有負面影響」這兩種。其中，表現好的人更是要優先處理。

除了每天例行工作接觸之外，專案管理者應該要有確切的「數字」。假設，我們想知道在此專案中，哪些人常常「晚上」工作。最簡單的方式是分兩步驟，先用git列出作者時間，然在寫個簡單的統計程式，列出所有人的「晚上」工作時間和「平常」工作時間次數。

* 步驟一：先取得所有的branch, 然後, 以下git log指令可以列出作者和時間，並且輸出到檔案author_time_log

 

# for BRANCH in $(git branch -a | grep remotes | grep -v HEAD | grep -v master); do git checkout --track "${BRANCH}"; done
# git --no-pager log --all --pretty="%an,%ai" > author_time_log

檔案內容大概如下

....
Austen Collins,2015-08-05 18:28:18 -0700
Austen Collins,2015-08-05 17:26:26 -0700
ryanp,2015-08-05 17:04:37 -0500
Derek van Vliet,2015-08-05 09:31:56 -0400
Michael Friis,2015-08-04 18:54:03 -0700
Austen Collins,2015-08-04 15:04:46 -0700
Colin Ramsay,2015-08-04 22:03:48 +0100
Chas Warner,2015-08-04 14:53:59 -0600
Austen Collins,2015-08-04 11:19:31 -0700
Austen Collins,2015-08-04 11:15:44 -0700
Austen Collins,2015-08-04 11:11:06 -0700
Austen Collins,2015-08-04 11:09:24 -0700
....

* 步驟二：撰寫簡單的分析程式，設定正常時間是早上7點到晚上8點，其餘都算不正常時間。用人名為單位加總之後，就可以產出簡單的報表。簡單的統計程式原始碼請參考這裡。

此表中，Eslam幾乎有一半的commit都是在晚上產生，而Kamil則是標準完全正常時間工作。

Joe Turgeon [1, 0]
Erik Erikson [15, 7]
Ian Serlin [1, 0]
David Hérault [1, 0]
Peyton Zhou [2, 0]
Kazato Sugimoto [2, 0]
Nick den Engelsman [1, 0]
Kiryl Yermakou [0, 1]
Austen Collins [575, 267]
Kamil Burzynski [101, 0]
Frank Schmid [9, 2]
Jacob Evans [13, 1]
Michael McManus [1, 0]
Eslam A. Hefnawy [158, 132]
Dave Newman [0, 1]
Ryan S. Brown [35, 6]
doapp-ryanp [129, 48]
Michael Friis [1, 0]
Matthew Chase Whittemore [2, 0]

當然這並不代表Eslam的表現好而且壓力大，這只是提供給管理者參考的事實。專案管理者，必須要事實層面，檢查軟體專案的狀況，因為很多時候「會吵的小孩有糖吃」，只單純被煩就會給糖的專案主管，其實對團隊是沒有價值的。

小心統計陷阱

統計數字都可能會有陷阱，程式碼的基本分析也是統計的一種，自然要小心陷阱的存在。專案管理者應該要善用統計數字，切勿被統計數字所左右。請參考統計與謠言。

註1：軟體開發專案不使用版本控制系統，會讓專案本身暴露在極端的風險中。如果你是專案管理者，讓專案暴露在風險中就是你的責任。如果你只是個開發人員，儘早離開高風險的環境才是上策。

註2：某種情況是，專案規模過於龐大，例如參與開發者超過100人，某些技術確實不見得能完全掌握，但專案管理者，仍然要保有部分自行檢查的能力。

8/19/2017

如何成為Scrum專家 - 極簡計畫書

Scrum是推進團隊進度，合作專案的敏捷方法論之一。在過去幾年來從資訊產業，金融業，甚至學校教育，都有不少人在倡導這個簡單而且踏實的方式。因為Scrum有很多優勢，例如減低壓力，具有務實的彈性，容易評估現況，易於控制品質。這些優勢，可以用在大部分的企業環境中。因此，成為Scrum專家對職業生涯很有幫助。

學習Scrum並不困難，在各企業巫醫的網路資料中，早就擁有看不完的資料。請參考這篇。

對職業生涯有幫助的不僅是「學會什麼是Scrum」，更重要是成為Scrum專家。或者，至少成為在他人眼中的Scrum專家。專家的定義，請參考註1。

或許你在職場有2-4年的工作經驗，作為一個團隊成員，在專案領導人的帶領下，參與以Scrum為基礎的專案。然而，這不會讓你變成Scrum的專家，因為你只是「照著做」而已。

在此提供一個極簡計畫，可以在很短的時間內讓自己變成Scrum專家。

如果懶得看說明的長篇大論，可直接到這個網頁下載計畫書

開始之前的條件

這份一頁極簡計畫書有使用上的條件：

(a) 必須要有還不錯的英文閱讀能力，TOEIC750以上。如果你的英文能力自認不夠，請參考這裡。

(b) 必須要有2-3年以上的實務工作經驗。而且在工作環境中，至少聽過Agile/Scrum。

(c) 必須打從心裡認為有效使用Scrum是有好處的。換言之，不能是因為「有人叫我要學Scrum」而學Scrum。因為，此極簡計畫書本身執行的方式也是Scrum！

如何成為Scrum專家極簡計畫書的使用步驟如下：

(1) 確認目標的實質意義

此極簡計畫是要在2個月內，讓執行計畫的你變成「Scrum專家」。而何謂Scrum專家的實質意義就是在此極簡計畫中三個sprint的「實質產出」。

Sprint-1 知識：讀完2本Scrum書籍，以及2份網路資料

Sprint-2 證照：取得Scrum證照

Sprint-3 研討會：舉辦公司組織內Scrum研討會或分享會

這三個實質產出的組合意義，目的就會讓你成為Scrum專家。即便不是Scrum大師，至少也是被大部分人承認的專業人士。

這三個Sprint各有已經設定好的任務(Task)，所有任務完成後，就表示該Sprint完成了。而每個任務本身的描述都是有簡單清晰的「完成條件」definition of done。

(2) 分配每個Sprint的時間

計畫書中，每個Sprint各有數個任務，每個任務都有估計的時間。時間是以小時為單位。加總起來，會有要完成Sprint所需要的總時數。

一般軟體專案Scrum估計都可能會有錯，在Sprint過程中，要能實際反映團隊實際的「速率」，因此前1-3個Sprint的燃盡圖很重要，可以讓團隊知道實際的效率。所以每個Sprint都是固定時間，大約4-6週，sprint時間到就結束了，只會看做完哪些Story，在下一個Sprint才調整要完成的story數量。

然而，個人Scrum做法會略有不同。整體概念仍然一樣，但因為Product Owner也是「你自己」，因此Sprint時間可以變動。換言之，可能第一個Sprint是4週，第二個Sprint是5週。

請在極簡計畫書中，每個Sprint任務表格上方，填寫預計的Sprint開始的日期，和結束的日期。Scrum是要反應實際狀況，因此，也許整個sprint需要5小時，但因為你有本來的工作要做，因此可能要花2個月才能有5小時的空閒。

(3) 每日工作

當有超過30分鐘空閒的時候，就可以把那張極簡計畫書拿出來，在這個Sprint選一個任務(Task)開始「執行」，或者，繼續上次未完成的任務。這些Task都是大約設計成30-40分鐘完成，但是根據Scrum的精神，每個人的績效不同，因此也有可能會花的時間多或者少，但無論如何，在還沒完成已經做一半的任務之前，不要換任務！

當然，如果該日沒空，自然就不需要拿出極簡計劃書來執行。

每個任務，都有完成條件，確定滿足完成條件後就可以塗黑空格，並且在右邊簡單的紀錄所花費時間，和大約日期。時間不用太精確，以半小時為單位即可。有些任務很簡單短暫，也許10分鐘就完成，但也以半小時紀錄就好。

如果沒辦法在0.5小時內完成一個任務，那要請自己休息一下，再決定要繼續完成該任務，也可以決定今天就先到此為止。

不能有某任務做到一半，就「先拿了」下一個任務，也不能有這個Sprint還沒完成，就先開始做下個Sprint的某個任務。當然Sprint中的任務，有些是沒有前後關聯，因此Sprint中的任務不需要按順序。只是，一旦開始做，就一定要做完為止。

某些任務需要下載檔案，請參考註2的各個下載網址，可以一次下載完成。

在計畫書中的任務描述都很簡單清楚，但如果真有問題，也歡迎來信詢問

(3) Sprint 結束自我檢討和下個Sprint的開始

完成Sprint中所有任務之後，表示這個Sprint完成。要花15分鐘時間，先自我檢討一下Sprint過程中有哪些阻礙，而自己應該怎麼改善阻礙。

接下來就要開始下一個Sprint。實際上，本來Sprint的開始是需要先討論Story和Task的選擇。然而，極簡計畫書希望你不要花時間在研究這些Task重不重要，而是先努力的花時間搞定它。畢竟這些任務所需要的時間都不多，實務上也對你有莫大的幫助。

不過，或許有些任務你早就已經完成，那就可以看一下完成的條件(DoD)，已經達到就可以自動塗黑。

(4) 計畫書完成？專案結束了嗎？

三個Sprint完成之後，這個極簡計畫書就達到它的功能。但就個人專案的角度來說，專案不見得要結束。只是這時候你已經有足夠的能力和經驗，可以決定要不要繼續以Scrum的方式來學習Scrum。

(5) 3個Sprint結束後的彩蛋！

很簡單，當你完成這個極簡計畫書，實質上你自己完成了一個Personal Scrum。

彩蛋要靠自己完成。請在計畫書背面以三個Sprint的各任務所花的時間，「手工」繪製燃盡圖。

這件事的意義在於，你有確切證據證明你能有效運用Scrum在非工作事項上。也證明你有自我學習的能力。它可以用在未來履歷表，面試，或者說服同事Scrum不如想像中困難，只需要一點點毅力去執行。

在此下載計畫書

常見問題：

Q1：這個極簡計畫書，很多地方跟我在工作上用的Scrum都不一樣啊？

Ans：當然不一樣，因為他屬於Personal Scrum。但是它的最基本精神是一樣的。請參考這裡，了解Scrum哪些最基本精神比較重要。

Q2：我不就是自己的Product Owner？為什麼我一定要用這三個產出來達到「變成Scrum專家」。

Ans：你當然可以自我決定產出和任務，也有機會變成Scrum專家。極簡計畫書，是在如果你還沒有好的定義時，可以透過過去人的經驗，減少時間浪費，讓你專注在精進自己。

Q3：為什麼要取得Scrum認證，這樣就會變成專家嗎？

Ans：有些人可能會以「取得相關證照」，作為專家的標準。這的確是個參考標準，但也只是參考而已，因為Scrum並沒有所謂官方證照，所以市面上各種證照到底哪一個比較適合？請參考這篇「Scrum認證！不要再浪費錢了」。在此採用的是Scrum-Institute的低成本證照。

註1：即職場上的專門行業，指具備專業化知識及技能的職業人士。通常，專業技能須符合科學原理，經過長時間的學習及訓練，並有經專業認證的考試獲得的合格證書或執照，擁有自我約束行為的職業操守（或道德）及可量化的專業標準等。...定義細節請參考這裡。

註2：各種需要下載的資料

(a) 任務 1.4 的2個pdf教材
* https://www.scrumstudy.com/SBOK/SCRUMstudy-SBOK-Guide-2016.pdf
* https://www.scrumguides.org/docs/scrumguide/v1/scrum-guide-us.pdf

(b) 任務1.7的wiki頁
* https://zh.wikipedia.org/wiki/Scrum

(c) 任務2.1的pdf
* http://www.scrum-institute.org/Scrum_Books_International_Scrum_Institute.php

(d) 任務3.1與任務3.3的材料

* http://www.eduscrum.com/

* https://www.crisp.se/gratis-material-och-guider/scrum-checklist

7/31/2017

快速且極低成本之AWS臉孔比對 - 利用AWS Lambda

AWS在2016年底釋出的圖片辨識服務(Rekognition)其實是非常非常昂貴。除了前5000次影像辨識不收費之外，接下來每一千次影像處理會收1美金。

乍看之下不多，但實務上，公開使用的影像辨識，通常無意中就暴增。

以之前LINE聊天機器人影像辨識為例，由於會當辨識到女性的照片時，會特別額外辨識內建的臉孔比對(40個亞洲女星照片)。等於是每收到一個女性照片，會進行42次臉孔辨識：40次照片比對+1次特徵比對+一次名人資料庫比對。就LINE聊天機器人數百的好友而言，該功能開放不到7天，就已經超過四萬次比對，換算價格約35美金。

35美金其實足以開啟維持t2.medium (EC2 VM)一整個月。這個VM甚至還有4G的記憶體。這樣的VM絕對能支撐每秒2-5次的臉孔比對，換言之，一整個月可以比對超過7百萬次。而這7百萬次也才略高於35美金。

然而，不應該因為成本的增加，就直接使用EC2 VM。而是應該考慮在符合serverless的架構下，如何解決這個問題。畢竟，當使用了VM，未來在擴增(scale-out)上也會有些麻煩。其實，我們目的很簡單清楚：只是要比對兩張臉孔的相似度。因此，應該使用輕量化Lambda即可。

原本做法

當使用者透過LINE上傳照片給聊天機器人之後，後端系統會執行下列事情：

(1) 先利用AWS Rekognition (detect)查詢基本臉孔資料，例如性別，年紀等等。

(2) 假如判斷是女性，就到AWS S3上選取所有要比對的臉孔，進行比對分析。在這裡，如果有40張臉孔，表示每一次上傳圖片，都要在這個階段額外送出40次分析。即便AWS允許先行儲存圖片特徵，但在比對階段仍然是看次數。

參考程式節錄如下：

    
    rclient = boto3.client('rekognition')
    s3 = boto3.resource('s3')
    bucket = s3.Bucket('sandyifamousface')

    for o in bucket.objects.all():

        #print(o.key)
        response = rclient.compare_faces(
            SourceImage={
                'Bytes': byteArray
        },
            TargetImage={
        
                'S3Object': {
                'Bucket': 'sandyifamousface',
                'Name': o.key,
            }
        },
            SimilarityThreshold = 60
        )
        if len(response['FaceMatches'] ) > 0:
            # DO things if match..

(3) 最後把判斷之後的結果，送回給LINE

改良做法

先將40張圖做臉孔分析，並且把特徵值Landmarks挑出來，儲存在檔案中。未來數量大的話當然可以存在dynamodb。

在這個範例是儲存於json文字檔中。

(1) 與上一段相同

(2) 在Lambda被載入時，就先讀取文字檔，成為python的dictionary。原本要利用Rekognition做比對，改為使用自己寫的比對函數。在範例中，這個函數是利用landmark的相對距離變化，來判對臉孔相似與否。當然這樣的比對其實很粗糙，而且也沒有考慮臉孔的前側傾角度。不過，和aws本身所附帶的臉孔比對的結果其實已經很接近。

參考程式節錄如下：

def compareLandMark(landmarkList1, landmarkList2):
    distList = []
    compareList = [
                   ('eyeRight','nose') ,
                   ('eyeLeft','nose'),
                   ('mouthLeft','nose'),
                   ('mouthRight','nose'),
                   ('mouthUp','mouthDown'),
                   ('mouthLeft','mouthDown'),
                   ('mouthRight','mouthDown'),
                   ('noseRight','eyeRight'),
                   ('leftPupil','rightPupil'),
                   ('nose','rightPupil'),
                   ('leftPupil','nose'),
                   ('noseRight','noseLeft'),
                   ('eyeRight','eyeLeft') ,
                   ('mouthRight','mouthLeft') ,
                   ('mouthRight','eyeRight') ,
                   ('mouthLeft','eyeRight') ,
                   ('mouthRight','eyeLeft') ,
                  ]

    for (m1,m2) in compareList:
        d1 = getDistanceFromType(landmarkList1, m1, m2)
        d2 = getDistanceFromType(landmarkList2, m1, m2)
        distance = (abs(d1-d2)/d1)
        distList.append(distance)


    lenD = len(distList)
    mD = statistics.mean(distList)
    # stdev and variance could be used in the future.
    mStd = statistics.stdev(distList)
    mV = statistics.variance(distList)
    conf = (1-mD)**2
    return conf*100

(3) 最後把判斷之後的結果，送回給LINE

結果：

在Lambda自行撰寫比對程式，但是其實是利用AWS Rekognition 所給出的landmark (特徵)，會讓比對變得簡單而且成本很低。

缺點是，這樣的比對準確度和如何計算特徵有很大的關係。

* 關於LINE聊天機器人，請參考這篇
* 專案程式碼放在這裡。
* google的vision api其實價格更貴，請參考這裡。

7/26/2017

聊天機器人 - 快速製作在LINE上的人臉辨識應用

名人以及圖片分析在和LINE聊天機器人之對話中

聊天機器人(chatbot)作為人機介面，提供人類各種整合性服務是最容易產生的應用。而人臉辨識，一直都是人工智慧與數據分析的整合課題。因此，把LINE聊天機器人加上照片或人臉辨識的功能，似乎也很有趣。

用LINE QR 加小姍為好友可以測試人臉辨識

以前，在做關於影像的實驗性質的程式時，通常會先考慮opencv。雖然opencv確實是個好工具，但是如果你的目標不是改善演算法，或甚至做出更先進的人臉辨識方式，那麼opencv會過於複雜。

在2016年底，AWS發表另一個雲端服務：Rekognition。這個服務提供了API用以辨識影像，並順便提供了幾個在應用上的api：「比較人臉」「辨別名人」「識別限制級圖案」。(文件請參考這裡)

這些api要運用的最簡單方式之一，就是使用AWS Lambda來驅動AWS內自己的API，再透過API Gateway跟外界 - 也就是chatbot整合。換言之，這仍然符合公有雲廠商(無論是AWS, google還是azure)的所謂serverless的未來方向。雖然這些公有雲廠商，其實只是為了讓客戶更難離開公有雲環境，但不可否認的是，這些api的確有用而且在初期成本也不高。

快速製作在LINE上的人臉辨識，需要幾個步驟：

(1) 對serverless的設計概念有些瞭解

請參考這裡及這裡。

(2) 對Line聊天機器人申請和製作，以及對AWS Lambda先有基本的瞭解。

可參考這裡和這裡。

(3) 在LINE webhook的event中處理image id。

在webhook的lambda程式中，特別挑出image的id。LINE的訊息傳遞給chatbot時，有分不同的type，要處理的是image type。LINE並不會真的傳圖片檔案到webhook中，他傳遞的是圖片id，透過這個id，可以用一個URL拿到圖片：

https://api.line.me/v2/bot/message/<id>/content

要取得這個圖片，當然要有Line token

(4) 讀取圖片URL並且以取得bytes

以python為例，首先以requests讀取URL，記得stream必須設為True，因為接下來需要將資料(影像的byte)直接讀取成bytearray。參考程式如下

imageUrl = 'https://api.line.me/v2/bot/message/{}/content'.format(imageId)

r = requests.get(imageUrl, headers=headers, stream=True)

bArray = None

with r.raw as data:

f = data.read()

bArray = bytearray(f)

(5) 使用各種AWS的Rekognition服務。

取得bytearray之後，剩下的事情就很簡單了。

以python為例，可以使用boto3 (最好是1.4.4版本)。先取得rekognition的client物件，直接使用裡面的方法(例如以下範例)。將Image參數都設定成{ 'Bytes': your_byte_array} 就可以取得分析的結果。

rclient = boto3.client('rekognition')

response = rclient.recognize_celebrities(

Image = { 'Bytes':bArray }

)

要注意的是，分析結果response是一個含有各種標籤與技術數值(例如信心程度)的dictionary物件，所有的標籤都還是英文，必須得自己轉換成中文才行。

範例中的「名人辨識」(celebrities)所查到的名字都是英文。可以利用wiki 英文api搜尋這個英文字，找到對應的中文網頁，在取得中文字。

wiki的英文api可參考這裡。

(6) 存取S3之考量

如果看過AWS document應該會發現，使用recognize都可以設定image來源是S3。那麼範例為何不存取S3？

事實上，的確可以將LINE的影像，先存在S3，然後再進行分析。然而，這樣會多了「存入」S3和取出S3的時間。並且，S3也是要收費的！影像如果只「分析一次」，那麼存在S3其實很不划算，存在Rekognition裡面更是貴。如果會反覆利用，那麼恐怕還是得存在S3中。

目前結果分享

用LINE將小姍加入好友，就可以試用一下目前LINE與AWS人臉辨識整合。

加小姍為好友 ID-> @opn2514f

加小姍為好友

下圖是辨識川普不同的表情，會被辨識出不同的年紀，和不同的心情。

訂閱：文章 (Atom)

標籤