TS 資訊科技與人才培育: 9月 2016

9/30/2016

企業巫醫 - 實習生的三贏

巫醫通常會告訴病人事情的「權衡」：是想要錢還是健康？是想要貢獻祭品還是得罪惡靈？當需要獲得健康，當然就要犧牲其他東西。

許多事情的確是如此...總不能要馬兒跑，又要馬兒不吃草。

不過，對於需要創造性思維的現代企業，權衡在於真正的目標，和創意的達成方式。把馬車換成內燃機驅動的汽車，就是革命性的方式讓移動的東西大幅加速而且不用吃草。

企業實習生也是如此。

高明的策略，就可以達到三贏。普通的策略，就會犧牲某些地方。愚蠢的策略就是三輸。

以資訊科技產業來說，三贏的情況是：

對企業組織來說：有低成本的方式，獲得高潛力的「人力」。讓工讀生能先處理簡單，可學習，重複，但是可改進的工作，使團隊成員專注在複雜的開發活動上(註1)。藉此了解這些工讀生未來的潛力，同時也能透過有效分工，提升績效和產出。還能順便展現企業的社會責任決心。甚至，透過實習生循環來訓練組織內部未來的領導人才。

對社會來說：降低新鮮人「嘗試錯誤」的成本，增加投入的生產力。

對新鮮人來說：提早知道自己的興趣和能力。在還沒踏入職場之前，至少對工作有所體認，瞭解軟體工作真實的一面。無論未來是不是要從事同一行業，踏實並且正確的工作經驗，都能引導未來的發展。

普通的情況是：

對企業組織來說：在暑假期間，統一由HR辦理招募活動，發配到各個部門，和夏令營一樣在兩個月期間和團隊一起合作，可能有產出也可能沒有。

對社會來說：讓大學生研究生在暑假能有除了閒晃打電動之外的選擇。

對新鮮人來說：可能像參加夏令營一樣，但只要有認知，還是能學到很多。

有三輸的情況嗎？

會有三輸的狀況，通常是乩童式策略規劃，和不正確的預期：

乩童式策略就像是有件困難的事情，是在我們的智慧能力尚且不能了解，所以我們就去問乩童，而乩童也不懂，但是他可以「起乩」，透過起乩，從其他地方得到智慧，來回答問題。在各個部落的巫醫也都有類似「起乩」的行為。即便只是實習生策略也會有淪落到乩童式規劃的可能。而這樣的策略結果等於是靠運氣，運氣好的時候甚且可會收到好的效果，但不可能永遠都是好運氣。

對企業組織來說：只是因為「聽」企業巫醫起乩之後，覺得弄幾個工讀生來好像很不錯。因此，就隨便找幾個進來。但由於沒有組織，沒有計劃，就只能做沒有意義的工作。更有可能還會故意製造的沒有意義的工作給工讀生。參考這裡。

對社會來說：浪費了人力

對新鮮人來說：對企業造成不必要的負面印象。也沒有真正學習到工作的意涵。

如何達到實習生的三贏策略

達到三贏的方式，當然是以事實為基礎，避免乩童式目的，達到漸進式目標。

以資訊科技，或者，軟體開發相關企業來說，掌握以下事實，就容易達到三贏。

(1) 培訓是必要的：

的確有很多自動自發學習，又很聰明的學生。但是稍稍有計劃的訓練，可以大幅降低走錯路的時間。而培訓不只是「教」而已，找一些主題讓實習生自行學習也可以。

(2) 長期：

對資訊科技相關的工讀生來說，

A: 一個禮拜來兩天，連續6個月。

B: 全天候，但只有2個月。

這兩個方案看起來實際工作時間似乎一樣，但是，最後能達到的學習效果和產出，永遠是A比較好。因為，資訊科技並非勞力型的工作，而是思考智慧型的工作。當實習工讀生對技術產生興趣時，自然而然會再額外的時間，補足在技術和知識上的不足。而且，考慮到前期的培訓時間，超過6個月以上的實習才能可能達到三贏。

(3) 務實：

讓工讀生參與真正任務，但由基本開始。讓實習生去撰寫核心模組，是本末倒置的行為(註 2)。但只讓工讀生去打掃辦公室也沒太大意義 - 除非這是一間專業清潔公司。以軟體開發而言。以下幾件事情都是比較適合的切入點。

A: 簡單的執行測試計劃(test case)：是最容易入手，並且也比較能直接產出貢獻的事情。

B: 驗證文件：例如將api文件中的範例依照手冊執行看看會不會有意外，也是產出貢獻的一種。

C: 專案助理，協助收集進度，現況，簡單統計目前在版本控制系統(例如git/cvs/p4)裡的程式碼增減狀況...。這些看似助理類型的工作，可以讓工讀生對軟體專案的進展有很完整的概觀。

(4) 實習生的週期循環：

工讀生從開始招募，訓練，到離開，最好是6-18月之間。必須要簡單完成的循環規劃。實際的例子如：

A: 招募大三四研一二的資工資管資科相關學生。
B: 為期最短6的月每週來兩天時薪固定為XXX元。
C: 到期根據實際表現可能會續約一次。大部分會續約。
D: 座位和電腦設定已經事先準備好 (已經有check-list)。
E: 主要先進行測試相關工作，但偶爾做點瑣事（例如訂下午茶)。
F: 每年的都是由某資深工程師負責，今年負責人為某甲。
G: 合約到期離開的check-list。

(5)利用實習生培育未來的領導人才：

成熟的企業組織通常趨於緩慢成長。也就是說，除非有人離開，不然從升遷為基層主管的機會將會越來越少。然而，在團隊培育領導人才，卻是必然進行。讓有潛力的團隊成員，負責整個工讀生的循環週期。藉此，歷練作為領導主管會經歷的所有關於「人」的大小事情。畢竟，並非所有技術專精的人都適合當領導者，而透過執行實習生的策略，不只培育了實習生，也可以培育團隊的未來領導人才。即便最後發現某些技術專精的人不適合作為領導者，風險也比較低，畢竟他僅只負責工讀生，不是突然之間負責領導整個開發團隊。

很多時候，即便實習生不能達到原本規劃的要求，光是能夠陪為組織內部未來的領導人才就已經十分划算！

註1：「簡單，可學習，重複，但是可改進的工作」和之後提到的「無意義的工作」截然不同。以軟體開發中的測試工作而言，雖然某些情況需要大量人力測試，但是，更多狀況是當工讀生了解測試的意涵之後，大多數都能改進測試的方式，在某種程度達到自動化測試。而「做出」自動化測試程式，對工讀生來說就變成可學習到很多的工作。

註2：但也不能排除剛好招攬到一個天才中的天才的可能性。因此如果真有這樣能力的人，應該直接讓他轉成正職。

9/25/2016

企業巫醫 - 時間乃最終之敵人? (下)

上篇：企業巫醫 - 時間乃最終之敵人? (上)

那結論呢？

就人類來說，時間是中性的。它不是朋友，也不是敵人。它不是惡靈，也非天使。

在有限的職業生涯，如果你找得到自己的方法駕馭它，那非常恭喜！這可是上天給予的重大天賦之一。

如果始終在瞎忙中度過，或許試著混合數種前面的巫醫建議方式，可能會有些幫助。

但有幾個重點...

1. 考慮事實

企業組織為求營利的天賦，自然趨向去做幾乎任何可能產生商品競爭力的方式。以時間為衡量標準，恐怕是在天然資源和資本取得已經趨近最佳化的情況下，最合理的方式。

如果你覺得在企業組織工作時，自已的時間被無聊的瑣事白白浪費，氣的想要出來創業....那麼，你一定要先考慮是大部分的人，是自己無法控制時間，而非被別人浪費。這種情況下出來創業，會讓你本來每天花8小時幫某公司做事，變成每天花16小時，幫自己的公司做事。

時間既然是中性，增加效率當然是可行。加速？聽起來跟前述的巫醫有什麼不同(註4)？

重點在於：無論是個人還是組織。找到真正的目的，比產出效率重要。

而真正的目的在於考慮真正的事實。企業巫醫有許多手段和方式，都可以協助你找到「真正的事實」。

以個人生涯規劃而言，最終，這個事實也有你自己才能夠斷定。

然而，以在企業組織內部工作，真正的事實，或者是真正的目的，必須要來自「團隊目標」和「組織目標」。

2. 兵貴神速 v.s. 後發先至

重點在於：長期累積比短暫績效重要。

當企業組織可以在某個產品推出時領先，當然要持續領先推出其他產品，或者領先產品的其他服務。在這世界上有太多的先行者，無法保持領先而被後來者居上。兵法也有云：「後人發，先人至，此知迂直之計者也」，後發先至，其實是兵貴神速的對應。

個人工作上也是如此。快速完成的工作，如果不能累積優勢，就浪費了速度。以軟體工作而言，快速完成功能固然重要，但是功能上的完整以及品質，卻是快速的「基礎」。因而，採用敏捷開發的任何方法論，都不能以快速作為藉口，直接放棄功能上完整或者品質。

後發先至的基礎其實也在於「快速」。但是，個人快速的反應，其實是長久實力的累積。例如，對營運Linux平台十分熟悉，有很多年踏實經驗的工程師，自然在對應新的Linux雲端營運(例如AWS,Azure的Linux虛擬機)就比較容易適應。而過去僅在windows平台上有營運經驗的IT人員，如果整個系統要搬移到Linux為基礎的平台上，就算他可以很「快速」完成一部分，也不見得做的完整或者達到好的品質。

3. 時間乃最終之敵人 ...除非...

時間從很多角度來說確實是最終的敵人。它雖然是中性，但是它永遠都會流失。它的離開是必然而且無情。無論這禮拜天你做了什麼，禮拜天一定會過去。

因此，現實的說，時間乃最終之敵人...除非......讓它變成「敵人的敵人」。

以近年來的新興網路企業而言：

無論有沒有特別認知，事實上都試圖以「時間」來建立其他對手的進入障礙。若非以極高的成本獲得市場佔有率，讓其他競爭對手花更多時間才能開發產品，就是以需要時間累積的功能作為競爭主軸。

以個人的生涯規劃而言：

剛踏入社會的新鮮人，勢必缺乏實務經驗，無論是在爭取好的工作機會，或者是已經在企業裡面爭取好的表現，都不能是以「經驗值」來作為依靠。

以經驗值產出「工作表現」，大部分情況下新鮮人是無法和老鳥相提並論。但是相對於工作N年的老鳥比較起來，在「時間」上新鮮人擁有更多彈性。所謂時間，切記並非加班時間，而是「第一次就做對事情」的時間，透過學習和利用比較新的知識範疇，新鮮人可以比較快跳過錯誤的嘗試，在某些未來有發展潛力的範圍，有更驚人的表現。這時候，時間就會是朋友而非敵人。

相對的，已經工作了7年以上的老鳥。如果老是只能靠吹噓過去已經結束的專案經歷，無法產出對應的經驗值，那麼這七年時間就變成是最大的敵人。只是看到最新的技術，就隨意一頭栽進去學習，則時間就會是資深工程師的敵人，因為通常資深工程師的彈性時間實際上比較少。

資深工程師，在工作上必須要找到能夠善用這七年的成功或失敗經驗的地方，並試圖累積更多。即便是想要打掉重練，也應該透過經驗的累積，重練的更快，更好，甚至自動化。找到可以累積的地方，這時候，時間就是朋友而非敵人。

以作為組織內部的部門主管，專案團隊領導者更是如此：

當領導者使用以下手段時，是把時間當做敵人，(然而，要打敗時間實在太難)

* 加班
* 在軟體專案延遲時利用人月計算方式增加人力
* 以未來的產能估計時間，而非以過去的事時估計
* 以各種理由拖延專案，包含把責任推到別的團隊身上
* 專案過程並未檢視真實進度
* 假裝使用agile敏捷開發，實際上還是waterfall
* 不正視事實
* ....(還有很多)...

那麼不採用以上手段還有什麼可以做的呢？當然很多！如果你是領導者，但是想不出來其他方式，那麼你可能不適合擔任困難任務的領導者，因為「時間」永遠是你的敵人，而幾乎沒有人可以打敗時間。

註1：CP值，或者性價比，請參考這裡。

註2：這句話很多人都講過，包含郭台銘和柯文哲。不過，這個名言最早應該媒體大亨：梅鐸所說。另外，這句話在2002年也是某本書的名字。

註3：將時間視為第四個空間維度來描述，請參考狹義相對論。

註4：增加工作效率？聽起來和前述的巫醫有什麼不同？就想要達到的效果來說，有良心的巫醫和一般的醫生並沒有不同。最大的不同在於方法是不是合理，經過有效驗證，而且可以在未來檢討改善。

企業巫醫 - 時間乃最終之敵人? (上)

在每年不可計數的企業管理勵志書籍中，有越來越多把「時間」視為判斷事務的重要標準。想當然，個人「時間管理」變成一種必要的技能。然而，更近一步是在越短的時間，達到越驚人的效果，從早期的「24小時學會某東西」系列，到「7分鐘運動燃脂72小時」，都是試圖在短的時間內達到CP(註1)值最好的結果。

時間似乎是最終的敵人？

也許，在某些時候，「搶先一步」是競爭的最佳方式。不是大的打敗小的，而是快的打敗慢的(註2)：就變成企業主事者認定的最好成功方式。畢竟，如果可以用很少的投資(小)，只要用比較少的時間(快)，好像就可以打敗大但是慢的競爭對手？聽起來永遠不吃虧阿！再者，兵法有云：故兵聞拙速，未賭巧之久也。似乎，只要速度夠快，總比慢來的好？

更近一步的說，許多人逐漸視時間為最終測量維度。例如Compete Against Time，就將時間視為在商業上，衡量事務的最重要方式(註3)。甚至有人認為應該是唯一的度量方式。

就經濟學始祖亞當斯密1776年的說法，企業組織價值的來源主要由三種事情組成：資本，土地，勞力。土地：泛指一切自然資源，勞力：泛指人類的智慧和努力。任何商品的價值，都是由這三者的其中一種，兩種，或者三種組合起來。

時間快轉到2016，隨著全球化經濟發展，資本以及自然資源，對於企業的影響已經遠遠不如「勞力」，更確切的說，是人的努力強化資本和自然資源的運用。即便現在存在著比1776工業革命初期更自動化的設備，更能節省人付出肌肉的努力，但面對更趨複雜的環境，人類的「智慧腦力」似乎需要付出的更多，某些人需要付出更多的腦力，讓其他人少動點腦？而最終，變成某些人在相較短的時間，付出較多的腦力，產生較好的結果，可以大幅讓商品的價值領先市場的其他人。

總之，各種訊息「似乎」都顯示，即便時間不是最終的敵人，也是先要處理的「衡量指標」

以廣大勞工而言，衡量生存的指標，就從古時候的「每天能耕多少田」，轉為「每天能在工廠做多久」，而再變成「每天在電腦前面完成多少工作」。只要能在越短的時間完成越高品質的工作，就會越有機會加薪升遷。

然而，事實上只有極端少數的人，能夠妥善駕馭自己的時間，也因此，「時間」變成企業巫醫用來恐嚇部落子民的惡靈之一。

巫醫有三種方式來處理「時間惡靈」

一：加速 - 跑的比它快

各種企業巫醫的，也在強化此信念，教導讀者「加速」用來增加巫醫的崇拜。

例如，最有生產力的一年，超強時間術，早上三小時完成一天的工作，時間整理術... 請隨意搜尋類似標題，一定可以找到超過100種以上的方式，書籍，甚至mobile app。

這些加速的書籍，有些的確是有用的個人經驗，就像南美巫醫累積了數世代的經驗，分辨有效的草藥一樣的有些用途。然而，通常僅能適用於巫醫自己。關於「加速時間」，就像投籃命中率一樣，可以學習，可以練習，但是因為環境的因素，每個人終究有其極限。

事實上，「加速」全然是靠自己的經驗和能力，就像大部分的感冒是靠自己的抵抗力痊癒一樣。採用巫醫的建議手法，確實有幫助，只要自己意識到這樣樣的手法是在幫助自己的經驗與能力即可。過度崇拜「方式與手法」，會容易走火入魔。(參考：2013年的9個todo app)。

二：有效利用 - 80/20法則的極端利用

光是加速，能取得的效果總是有限。頂多取得20%-30%的進步就很了不起。唯有改變方式，甚至改變目的，才有可能取得3倍或者10倍的改變。

從「加速」改為「有效利用」，就成為在2008金融危機之後的顯學。

例如：為什麼菁英都是清單控，Scrum一半的時間做兩倍的事，少但是更好，其實工作不必這麼累 ... 一樣有成千上百的書都屬於此累。

這類型的「找重要的事情做就好」的書，其實真只有這個重點，那就是掌握80/20法則，先做重要的事情，你的職業生涯就是彩色的。

但是，企業巫醫沒辦法告訴你，在你身上哪個20%是最重要要做的事情。誠實的巫醫永遠只能說「施主，這要問你自己阿」。而拐彎抹角的巫醫會用「斷捨離」，「時間矩陣四象限」，「人生優先清單」等等技術性的手法，告訴你，你還是得自己找到那重要的20%。

三：心靈層面 - 永遠都有的一招

幾乎所有的企業巫醫都會的一招：將所有的事情，推移給心靈與精神層面。

例如：心靈慢活療癒，慢活，從容的力量，慢一點成功又何妨，被討厭的勇氣...

就心靈層面觀點而言，這些巫醫也許可以帶來平靜，而平靜讓人的思慮或許可以更周延，並降低更多的壓力。但是，這些巫醫雖然好意的想要讓世界變得更美好，但是絕大部分的人類是社會性動物，試圖全然擺脫外在的影響，等於是要人類放棄天性。當企業組織內變得越來越快速，光是一個人在裡面「慢活」是難上加難。

那結論呢？

請參考下篇：企業巫醫 - 時間乃最終之敵人? (下) 。

9/18/2016

數據分析從零開始 - (3)外部取得資料

...續<上篇>...

外部取得資料

最常見的就屬於在網站上資料取得。最近由於透明化政府政策越受到重視，可供老百姓取得的資料就越多，當然可供作為資料分析的運用就多得不得了。

直接取得可程式化資料

資料本來就提供給外部取得用以計算，例如：政府開放資料。資料好不好用，是另外一回事，但起碼大部分的情況下，這類型的資料只要能下載就足夠應用。

有些資料可以api的方式取得，通常需要申請權限，典型的像是facebook graphic api，musicbrainz api，wiki api等等。

假設需要的資料都可直接程式化取得，那真要感謝上帝。資料數據分析就少了一大堆痛苦的事情要處理。

有個重要的技巧：利用Shell以及試算表對資料做基本驗證。這和前篇雷同。不過在此以試算表為例。

外部資料取得如果已經是整理過的，必然可以用很簡單的方式驗證。即便你沒有Excel，也可以先利用google的googledrive產生樞紐分析表。

作法很簡單。以前陣子最有名的資料：不動產時價登錄為例，

(1) 首先，到內政部網站下載公開資料

http://plvr.land.moi.gov.tw/DownloadOpenData。
它提供了很多資料格式，不過請下載csv格式。

內政部雖然是一番好意，提供各種格式資料。但坦白說，只csv格式是真正正確容易處理。其他格式根本是多餘而且難以直接利用，它的xml並沒有定義namespace，會讓需要合併處理xml時，要重新定義所有的node。

(2) 選擇其中一個csv上傳到googledrive，上傳之後是預覽狀況，請參見下圖：

(3) 按下右上角的：使用『google試算表』開啟

這時候會把csv格式自動轉換成google試算表內部格式。請注意這個格式，並非excel。

(4) 在試算表上選擇「資料」，並選取出現的「資料透視表」。要注意的是，這裡雖然是資料透視表，但是其實下一個畫面名稱就變成樞紐分析表了。

(5) 樞紐分析表出現後，是空的。在右邊選擇想要的欄列。之後就可以自動展示簡單分析的結果。

下圖的例子是以桃園的區作為列，建物型態作為欄。並且在「值」的位選擇平方公尺的單價的平均值(Average)。這個基本的分析可以很快的看出來資料的特性。舉例來說，在這段期間，屬於廠辦的交易就只有龍潭區。

間接取得資料

許多有用的資料，都要自己寫程式來取得。特別是，這類型的資料雖然公開，但不期望也不希望被程式大量取得，例如統一編號查詢。這種資料通常會用captcha來阻擋，不過現在破解captcha的工具和機率越來越高，現在比較重要的網站都改成以「請點選以下哪幾張照片裡面有老虎」這種方式處理。

在1996年之前，間接取得資料的通訊協定有很多種。但是，現在http幾乎已經統一可公開間接程式化取得「資料」的所有方式。而也因此，所有間接的，可程式化的取得資料大概都只需要專注在http。

簡單的說，只要

(a)熟知http crawler (爬蟲)技巧

(b)程式化處理html 或其他格式文字

就大概可以解決75%以上的問題。

建議的步驟為：

步驟一：找到正確而適當的目標。

不是所有外部資料都是好資料。倘若你想要蒐集在台灣關於醫療方面的問答資訊。或許你會先透過google隨意查詢一下，接下來，你可能會看到 verywed.com 有很多有趣的訊息和網友經驗。如果你就真的覺得上面的資料有用，那麼你等同是蒐集了眾多無法證實的資訊，造成資料嚴重的可信度問題。

雖然google也並未對所有資料的可信度加以查證，但它的演算法可以利用交互連結，以巨大的資料排比最可能的結果，而巨量資料在很多時候，可以彌補質的問題。

個人的爬蟲和資料蒐集，當然不可能做的和google一樣。至少從零開始的時候是不可能。因此，有意義，可信的資料來源變得很重要。

以前述的醫療資訊而言，台灣衛服部的台灣e院網站所提供的問答資料更具可信度。因為，回答問題必然是「具名」的醫生，當然其專業和可信度比「不具名的網友」高很多。

台灣e院看似複雜，但簡單來說所有的Q&A檔案歷史，都可以由一個ShowDetail.php加上簡單的參數以GET方法取得細節。每個網站的作法都不一樣，仔細觀察每個查詢按鈕，加上一些經驗與知識，絕大部分的網站都可以找到某種規則。比較複雜的網站，請善用瀏覽器的「開發人員工具」。

步驟二：以curl或其他工具，先行測試

在mac或linux上都有的curl指令，是在撰寫爬蟲程式之前，最方便先測試的小工具。

在很多時候，甚至可以利用curl配合wget，可以連程式都不用寫就抓取一整個靜態網站的資料。

例如，以下指令可以取得q_no=111521的網頁資料。（參見下圖)

#curl http://sp1.hso.mohw.gov.tw/doctor/All/ShowDetail.php?q_no=111521 -o onepage.html

步驟三：以script撰寫能處理與轉換儲存資料的程式

以台灣e院為例，要取得所有Q&A的歷史檔，只要知道「大概」最後的q_no編號，再寫個簡單的python程式即可。

要特別處理的地方只有：

(a) 不存在的編號：每個網站處理不存在的resource方式各有不同，以台灣醫院為例，仍然會在http reponse中回應200，但是內容改變

(b) 編碼：這個網站使用big5，但為了未來處理方便，最好先轉換成UTF-8。範例中使用requests取得網頁之後，理解編碼並且轉碼。注意!大部分的big5會被誤以為是ISO-8859-1因此要先強行指定為big5之後再轉換

程式碼參考如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import requests

import time

import sys

from io import StringIO

from lxml import etree

from datetime import datetime

for i in range(34500,34520):

time.sleep(3)

print('working on'+str(i))

url='http://sp1.hso.mohw.gov.tw/doctor/All/ShowDetail.php?q_no='

r = requests.get(url+str(i))

r.encoding = 'big5'

htmlstr = r.text

if htmlstr.count(u'不存在</h1>') > 0:

print('ignore '+str(i))

continue

parser = etree.HTMLParser()

sio = StringIO(htmlstr)

tree = etree.parse(StringIO(htmlstr), parser)

question = tree.find(".//li[@class='ask']")

allq =""

for t in question.itertext():

allq = allq + t

dr = tree.find(".//li[@class='doctor']").text

ans = tree.find(".//li[@class='ans']")

alla = ""

for t in ans.itertext():

t.replace("\n","")

alla = alla+t

oneResult = {'a':alla,'q':allq,'dr':dr}

print(oneResult)

步驟四：考慮儲存地點

網頁可以儲存為靜態檔案，也可以分析欄位後，儲存在傳統資料庫，但近年來更流行存在nosql中。

可選用的nosql非常多，mongodb, AWS的dynamodb, elasticsearch, couchbase...都可以。

前述的範例，倒數第二行：

oneResult = {'a':alla,'q':allq,'dr':dr}

其目的就是在於轉換為python dict之後，很容易處理為json或者直接利用各nosql的sdk，存入到儲存地點。

步驟五：慢速進行

大部分的網站其資料當然是公開讓廣大網友使用。然而，程式化使用，例如利用爬蟲大量下載，通常是網站管理員不會特別注意到，然而爬蟲程式的確有可能讓網站變慢。

作為一個自治網路世界的好公民，首先應該先了解該網站是否有robots.txt，也就是定義爬蟲程式的規範。如果有，那就應當遵循。如果沒有，應該要在爬蟲程式中，適度的停一段時間。

例如，以前述範例來說，在for迴圈中使用time.sleep(3)，讓每一個http request都等3秒鐘之後才進行。這樣雖然有可能讓爬蟲程式本來需要1小時就完成，變成足足3小時以上，但可以確保該網站不會受到你的爬蟲程式太多影響。

9/14/2016

企業巫醫 - 人才管理...人才根本無法被管理

任何能在企業講幾個小時的顧問，都一定會說「在組織中，人的問題最重要」

雖然這句話說的似乎很有道理，但是等同於廢話。這和「颱風明天會來，所以會刮風下雨」一樣，人盡皆知，說了等於沒說。

但是只要是軟性的課程，例如：成功主管的教練技巧之類。都會開宗明義的，告訴虛心向學的主管們，「人的問題很重要」，並且在接下來的8小時，展示一些似乎有用，但很難執行；或者幾乎沒用，但容易執行的技巧，來讓經理們主管們理解：「人的問題很重要 - 但是也實在太難 - 請自己好好體會，好好努力吧」。比較好的顧問，會拿自己豐富的失敗經驗(註1)，用作為警惕 - 這樣還算有價值。但只靠講話的顧問，就只能如同電視名嘴一樣，以幽默的方式打發大家的時間。

既然知道困難，也應該認知困難的地方，透過承認困難，踏實的因應困難，才能在人才培育與經營上找到對組織有用的創造性作法。

對於眾多企業巫醫來說，讓事情變得越複雜，越困難，越不能解決，自然就容易強化巫醫的效果，並且萬一巫醫的作法不靈驗的時候，也容易找到推卸的方式。畢竟，是惡靈不願意配合你的祈求，不是巫醫的錯。

如果你恰巧是資訊科技的主管：無論是軟體開發團隊經理，或者資訊部門主管，只要你負責「管理」團隊，則團隊的人才經營策略，應該會是你最先要考慮的。

無論組織有多大，無論你的職位有多小，無論人資部門的策略是什麼，無論工作壓力有多大，無論專案團隊所使用技術多神奇......無論任何理由，團隊的人才經營策略，應該是團隊主管首要考量的事情！

每個困難，作為負責管理人才的主管，都應該試圖做出合邏輯的，可執行，有創造力的解決方式：

困難一：區別人力與人才

人才之所以難管理，是因為「人才」根本無法被管理。「人力」才能被有效管理。

所有大型組織，很難真實區分人力跟人才。即便是做機械性動作的生產線員工，在效率和品質上仍然有極大的差別。從早期豐田Toyoto的全面品質管理(TQM)開始，到1999年許多人的智慧統整出精實製造(Lean Manufacturing)：揭示了一件明顯的事實：

「實際做事情的人，才是真正知道怎麼做的人」

但是，這個事實卻也隱含著另一件事情：

「在實際做事情的人之中，有些人才，才是真正知道怎麼做才好的人」

但人力跟人才很難區分。以資訊科技為例，任何可衡量的指標，都只能短暫有限的區分人力和人才的差別：無論是寫程式的速度品質，完成任務的完整度時間，程式維護的難易度，對新技術學習的速度等等。這些可衡量的指標，可以很快挑出老鼠屎，可以有效的找到連人力都不算的冗員，但卻很難在短時間裡認出千里馬。

把所有可找到的指標，綜合起來，確實比較可以找到潛在性的人才。但是所花的時間成本太高，而且利用指標的做法，很可能會無意間讓組織朝向「指標」前進，而非「目的」前進。

例如，以軟體專案為例，如果指標是「完成code行數」，配合「每千行code發現的bug比率」，則有可能會產生一個大而無用的系統，程式碼很長，而且根本不會被用 - 當然也不會有bug。

任何在人才策略上，所使用參考的指標，最好都是「隱性」指標，而且必須是簡單有用，常常可以反覆檢驗。例如，這個員工，過去12個月，曾經「主動」提出並且「實作」過哪些軟體專案重要的模組。或者，這個員工，在過去12個月，曾經「主動」做過哪些和軟體品質相關的事情。

此外，以過去的貢獻和產出為區分的標準：這在軟體產品開發上是一個稍微可行的做法。但是，所謂的過去貢獻，不應該是過去35年的貢獻和產出，頂多是過去3年的貢獻和產出。而也必須要確保，這些產出，能有效被歸屬。

舉例來說，一個軟體團隊有10個工程師，共同完成一個很了不起的產品，然而因為市場的關係，產品銷售不好，最後也停止銷售。這10個工程師，仍然擁有產出的貢獻歸屬。但是！這個軟體專案的專案經理，就應該承擔產品錯誤的責任歸屬。然而，由於大部分的產品經理都能言善道，因此，最常看到的是產品經理拿著過去失敗的經驗，拿來宣稱他「從錯誤中學習」，「得到寶貴的開發經驗」，更糟的是宣稱「產品的方向沒問題是公司策略改變」。

從錯誤中學習當然是寶貴的經驗，但是「必須真有學到，然後在爾後，因這些錯誤經驗而成功」。單只有「失敗的經驗」對未來毫無意義。請參考飛鼠裝跳傘(註2)。

在科技軟體產業，最踏實地的區分出人才的方式是：

(1) 面試時以情境實例面試法，了解他過去「做過的事情」，而不是未來「想要怎麼做事」

(2) 衡量工作情況是以「做出來的結果」，而不是以「講出來的結果」，當然也不是以待在公司時間長短，請假的多寡，發表的意見等等...

(3) 盡量試圖找出人才，而不是找天才。換言之，每個人都有某些能力和特性是組織所需要的，只要這個人可以把能力和特性「貢獻並且產生」出來，那麼他就是人才。反過來說，如果他會10種程式語言，還專精6種作業系統，並且還可以解決NP compete問題的難度。但是，卻因某些因素，沒辦法貢獻他的能力到組織或專案中，那麼他依然「不是人才」

困難二：培育或取得人才

資訊科技產業大部分都會宣稱自己很願意培養人才。少數倒是很誠實地說，他們想要直接用挖角取得人才 - 特別是最近幾年的中資企業。

由於培育人才表面上會遇到「培育後被人挖角」的風險。並且，取得人才，表面上通常能在比較短的時間，開始貢獻到企業。因此，許多在成本上沒有限制太多的企業，對於中階人才使用直接取得，也就是挖角，的機會越來越大。

這兩者都有很大的困難，但就資訊科技的角度而言，無論打算培育，或者直接到人才市場找到最適當的人，都不可能避免要「人才培育」。

資訊科技人才無法由人力資源部門統籌培育，必須要由技術性的部門執行，但是技術性的部門卻不見得有空，也不見得會知道重要性。

因此，常見情況是：「我們是on job training，有問題盡量問」。

代表事實就是：「我們不會，也沒有時間訓練你，將工作交給你之後，你就要自己想辦法學習，並且搞定它，當然有問題資深的人如果有空就會回答你。過一段時間你能生存下來就是好員工」

這表示，這個組織對人才培育的策略是......沒有策略，完全看個人造化和運氣。當然，最後的組織在人才運用的結果也是看造化和運氣。

對於規模夠大的組織，其實是可以用所謂沒有策略的方式，因為人數夠多的情況下，某些人才常常能夠單靠自己的能力，脫穎而出。但是在這種情況下脫穎而出的人才，很容易就會被其他組織「取得」。

雖然人才培育很困難，但是比較腳踏實地的做法是：

(1) 對剛加入的人，無論資深還是資遣，根據組織的現況，給予1-3個月的足夠學習期間，訂立學習計畫，在還沒有正式給予任務之前，有對整個團隊，先有全盤性的了解。

(2) 對於已經在組織很久的人，盡可能就現有的專案，進行延伸學習，這個延伸學習不見得是要去上課，可以提供他們「考證照」的經費，讓他們透過「考證照」來主動學習。請謹記：考證照不見得要考很貴的，因為重點不是在於證照本身，而是在於學習。

困難三：薪資獎勵

對於白領技術人才而言，薪資獎勵難以取得真正效果。

首先，傳統的增強理論，對人才：完全沒用！完全沒用！完全沒用！

但是對人力或冗員倒是有些效果。但企業組織為了表面上的公平，通常會試圖制定一體適用的政策，因此，大部分的傳統企業，或多或少都會運用蘿蔔跟棍子。

薪資獎勵，無論有多驚人，都屬於保健因素。換言之，如果不滿意，就很難留住人才，但如果滿意了，也只是「錢有到位」如此而已，一旦不能滿足激勵因素，換言之就是「心委屈了」，仍然無法用薪資獎勵來留住人才。

但反過來說，用夢想，希望，成就，甚至改變人類的命運等等「自我實現」的理念來作為取代薪資獎勵，恐怕也絕對行不通，因為激勵因素和保健因素，兩者無法互相取代。參考：雙因子理論。

大型組織中的某部門，或者某團隊負責人，通常也無法對薪資有大幅改變的權力，頂多是在年度考核的時候，決定某個人加薪的多寡，或者紅利的多寡。薪資獎勵，對有足夠規模的公司而言，整體結構早就是固定的，第一線主管僅有調整的空間。因此即便可以透過薪資獎勵來激勵員工，也不可能巨幅調整。即便可以巨幅調整，也不可能長期滿足。

因此，資訊科技根本不可能用薪資獎勵的方式激勵人才，留下人才，讓人才持續對組織貢獻。

既然不可能，就要換別的方式：

不大幅使用薪資，也能激勵好人才的方式：

(1) 選擇

提供選擇，或者讓團隊了解選擇。

早在2008年，Zappos就已經設立了離職獎金。讓想要離開的員工，更容易選擇離開。因為，一個勉強留下工作的人才，肯定不會認真付出，他就會成一個人力，更慘的是會變成冗員。而組織要花更多的時間成本。

在台灣作為第一線主管，大概很難說服人力資源部門執行這麼激進的作法。但是，在職權範圍之內，可以清楚的告訴成員，離開組織是一個選擇，當然很歡迎你做出「貢獻」組織的選擇。大部分的人才，在被鼓勵自由選擇的情況下，一旦做出留下的選擇，其貢獻一定會是「人才」的貢獻。

這也不是什麼新鮮事。

從1945-1962年間，不斷重複進行蠟燭實驗。到最近一本很紅的書：如何讓馬飛起來，之中提到的Amabile所做的獎勵 vs 選擇研究。都不斷指出，有創造性的工作，在事先已經知道有獎勵的情況下，其實績效比較差。

以下摘錄自「如何讓馬飛起來」一書：

60名大學生，他們將參加一項人格測驗才能拿到學分，測驗過程中，研究人員假裝錄影機壞了，無法繼續進行。然後她告訴其中一組，稱為「無選擇─無獎賞」組，他們必須完成拼貼畫來代替測驗。另一組「無選擇─有獎賞」，必須完成拼貼畫，但是可以得到2美元。詢問第三組「有選擇─無獎賞」，是否可以做一幅拼貼畫，但沒有任何獎金。再問第四組「有選擇─有獎賞」，是否願意做一幅拼貼畫，拿2美元獎金。為了加強獎金效果，她在獎賞組創作時，把兩張紙鈔放在他們面前。最後全部的作品由一組專家進行評審。這次實驗裡，獎賞果真激發出最有創意的作品──來自「有選擇─有獎賞」組；但最沒有創意的作品，也與獎賞有關──來自「無選擇─有獎賞」組。沒有獎賞的兩組，得分在兩者之間。就創作而言，選擇改變了獎賞所扮演的角色。創意表現最差的那一組，問題顯而易見：他們感受到的壓力最多。

而「無選擇─有獎賞」，正是大部分上班族工作時的實際處境

但是，如果這個獎勵，是事先有選擇性的，也就是可以選擇，那麼績效會更好。文中所提到上班族工作的情況是，無選擇-有獎賞。

其實第一線主管，是有機會加以改變：只要坦然的羅列選擇，不斷的提醒團隊成員：「這是個全然自由的世界」，「你可以去你想要去的任何地方」，「我絕對不會阻止任何人離職，甚至會幫忙寫推薦信」，當然也要提醒：「我不想要任何人離開，在這個團隊我們會讓每個人有機會成長為人才」，「雖然我不能保證薪水，但我能保證你必有成長」

(2) 人才合作 vs 人力合作

團隊如何合作，是主管最能影響團隊的事情之一。簡單的說，資訊科技團隊必須要能先考慮彼此優勢，透過發揮彼此長才合作；而不是考慮彼此的劣勢，透過避免發生問題的方式合作。

只要參考經濟學上的比較利益法則，找到團隊成員彼此間比較利益的優劣，就有機會讓大部分的人「變成」人才。

但如果在工作分派是以「剛好誰有空」這種區分方式，就會讓大部分的人變成「人力」。

(3) 成長優先 vs 產出優先

人才的成長培育優先，或者產出也就是績效優先？乍看之下是二選一的問題，其實是必須要獲得雙贏的問題。

請參見：工作太忙沒時間

作為第一線主管，必須要透過培訓以及帶領的方式，有效讓人才成長，透過人才成長，讓產出更有效率。

如果面臨二選一的情況，在短時間當然選最適合的。但是中期長的規劃，必須一定要能滿足兩者。

註1: 通常不太會有成功經驗的分享，因為在人才管理有真正成功經驗的人，很難有機會變成企管顧問。

註2: Franz Reichelt，飛鼠裝的先驅，然而他過去的飛鼠裝實驗都沒成功過，就嘗試從艾菲爾鐵塔跳下，結果當然是...

9/13/2016

數據分析從零開始 - (2)資料取得和前處理

既然要分析資料數據，自然要有資料數據才能分析。資料取得是必要的事情。

資料來源有很多種，取得並且事後處理的難易度各有不同。

但可以確定的是基本情況是：

1. 資料的時間，會遠超過自己的想像

2. 在開始進行分析之前，資料整理的所花的時間精力，也會遠超過自己的想像

3. 資料整理，幾乎不可避免

4. 資料整理，沒有捷徑也沒有神奇的密技，只能靠不懈怠的努力耐心以及經驗

5. 實際上有創意，有價值的數據分析，都不能免除資料取得和整理。

第一手資料：

在「嚴格的一手資料」定義下，做資料分析的人真的拿到一手資料的機會極端的少。不過如果你是購物網站的大老闆，則購物網站上產生的營運資料，web server的log等等，對你而言就是第一手資料。

實務上最常看到的第一手資料，應該就是網頁存取日誌(web log)。在2016年網頁伺服器市場上，apache加上nginx仍然佔了半數以上，其他的網頁伺服器種類雖然也不罕見，但網頁的log格式反倒似乎都很統一，因此，以網頁存取來說，資料取得跟分析都已經存在既有的工具。剩下就看規模和個人技巧。

其他類型第一手資料就包山包海，以業務來說，發票檔案(invioce)當然是貨真價值的第一手資料。以軟體開發來說，git上所有的commit log也是第一手資料。

以現在軟硬體的成本之低，第一手資料原則上都可以盡量保持「原來的樣子」，頂多保存的時候壓縮而已，不太需要進行破壞性過濾處理。

要點一：使用shell 做基本的確認以及雜訊處理。

mac或linux可以用的基本文字處理的技術太多。伺服器的log最基本的處理方式，應該先用shell快速瞭解一下現況。

舉例來說：

以下指令可以把access.log中的第11欄，http response code列出來，並且簡單統計一下各return code的次數。

#cat access.log | awk '{print $11}' | sort | uniq -c

以上圖來說，結果就是有3個http return 400，有134個return 200，沒有任何500的回傳值。至於什麼是http return code，請參考w3規範。

要點二：用excel做最基本統計檢視

過去許多excel版本都有筆數的限制（最多六萬五千多筆），2013之後就放寬很多（大約一百萬筆），請參考官方網站。

即便有數量的上限，也非常值得資料中，先擷取樣本來試著分析。使用樞紐分析表，可以很快看到資料欄位彼此可能的關係，在未來進行分析時候是很有用的參考。

如果到現在你還不知道什麼是pivot-table(樞紐分析表)，那表示你根本不懂excel。怎麼使用樞紐分析，請參考官方網站的說明。下一篇，我們會用政府公開資料簡單做個樞紐分析表。

要點三：以自動化的方式產生濃縮的摘要（二手資料）

只要能取得第一手資料，盡量使用自動化方式，自動產生有意義的濃縮摘要，這個摘要就算是二手資料。

當然，這要配合要點一的shell文字處理，例如以下指令：

#cat access.log | grep "GET /login" | awk '{print $6}' | cut -d ":" -f 1 | sort | uniq -c

這可以產生簡要報告，說明登入(login)頁面每天有多少人次來使用，執行結果如下圖：

這圖上的執行結果顯示，9/12有15個人次，而9/13有2個人次。

現存二手資料的資料

所謂二手資料當然就是不是直接產生資料的來源的資料。資料分析採用二手資料的機會非常高。

所有組織外部取得的資料，絕大部分都算是二手資料。因此在下一節中會特別說明外部資料的取得處理。

要點一：取得過程的紀錄，以及基本分析

無論資料是自己拿或者這別人給，都需要紀錄取得的過程。

舉例來說，如果IT「自動」會給你一份，wifi的使用者登入時間，以及最後封包產生時間，你就需要有方式「自動」記錄這個過程。

如果是外部網站，也應該要記錄當時取得的方式，假設是curl取得，則用了哪些參數，執行多少時間等等。

基本分析則和前一節相同，先用shell和excel對資料有基本理解。

要點二：正確性判斷

二手資料很可能不正確，或者，對資料的解釋不正確，會大幅影響資料的使用方式。

資料解釋不正確：舉例來說，只要有用過就知道，政府公開資料很多都宣稱編碼是utf-8，但實際根本就是Big5（例如房地產實價登陸）。

資料不正確：二手資料取得的資料本身判斷正不正確很困難，特別是在大規模的資料收集下，很難簡單判斷正確與否。而且有些資料的正確性，可能連第一手資料來源都不能保證（例如天氣觀測）

但是可以透過「多面向」的方式來探究單一資料的正確性。簡單的說就是多找幾種資料來交叉比對。舉例來說，如果你的天氣資料來自不同的網站，如下兩個圖：

雖然這兩個圖在同一個時間點的氣溫還是差了兩度，不過起碼是一個合理的範圍，因此大致還能知道資料是合理。

要點三：自動化進行轉換格式以及二次儲存

二手資料無論是什麼格式，幾乎都會被轉移格式，或者合併，或者改換儲存媒介。例如csv檔案，常常就被改為json格式並且存進nosql中。

但重點是要「自動化」進行。雖然格式轉換或者改變儲存的形式，幾乎都有現成的工具可供匯入匯出，但是只要太多「人為手動操作」，都會讓資料處理越來越花時間，越來越難保證整個流程的品質。

外部取得資料

<<TBD>> ...請見下一篇

9/05/2016

人工智慧的淺顯應用 - 製作Facebook或Line聊天機器人

自2022年有chatgpt之後，原本的fb聊天機器人已經停止使用。新的聊天機器人使用chatgpt, 想要試用的，可以email聯絡：consultant.3rd@gmail.com

聊天機器人(chatbot)並不是什麼新鮮事，早在1950年間圖靈(註一)在提出關於人工智慧判別方式時，就提到利用文字訊息 - 因要把人和機器分開 - 來和兩個對象聊天，其中一個對象是人，另一個對象是電腦，如果一個正常人在聊天的過程無法區分這兩者誰是電腦，誰是人，則可判別這電腦程式，是真正擁有智慧。

要達到這個目的難上加難，在wiki上可以看到目前僅有在2014年一個名為Eugene Goostman的聊天程式通過這個測試。

目前可取得的人工智慧演算法或相關技術都沒有太驚人的發展。然而，由於網路上的資料取得越來越容易，電腦執行速度越來越快，以致於不需要有驚人的技術能力，也不需要有對人工智慧會不會變成奴役人類的電影劇情的深思，就可以開發出有意義的應用。

Facebook聊天機器人也是其中之一。

商家，企業，甚至某些個人都擁有FB page (粉絲頁專頁)，而從2015年開始，facebook開始出現具有固定反應或者訊息回應的聊天程式。不過台灣似乎比較少見非特定用途的聊天機器人，因此我們就做了一個在粉絲頁上。參考下圖：

https://www.facebook.com/sandy4ai/ 具有人工智慧聊天的粉絲頁

這個聊天機器人會回應你的訊息，根據她內建的知識庫和基本的語意分析，會回應你訊息。當然，她也會慢慢學習對話，這個聊天程式並不會需要額外的facebook權限，因此她沒有太多額外的功能。下圖是聊天實況範例：

和具有人工智慧聊天的粉絲頁聊天

Line在今年(2016)也開放bot api，作法和Facebook幾乎很雷同。不過雖然都是webhook，他們的api實際傳遞內容當然完全不一樣。

Facebook/Line 聊天機器人的可能應用：

1. 基本客戶問題：

企業組織在網路上最常「被」查。查詢營業時間，查詢電話，查詢服務項目等等。在台灣，這幾年用facebook來做生意來越頻繁，而聊天機器可以提供24x7的基本回答問題服務。

2. 促銷活動：

聊天機器人在某些權限下，可以主動傳遞訊息，或者貼文給facebook使用者。這和一般廣告貼文有些許不同，因為貼文之後，使用者可以持續和貼文者 - 也就是聊天機器人互動。

3. 例行客戶服務：

預約預定，提醒預約，服務調查，生日賀卡貼文等等。

如何製作Facebook臉書聊天機器人：

1.摘要步驟

(1) 到AWS開設帳號。開發過程會用到Lambda, API Gateway, elasticsearch, s3 cloudwatch 等服務。

(2) 到facebook建立facebook app。（簡稱 fb app)

(3) 新增並撰寫基本的Lambda 以回應之後fb app webhook時的GET驗證。

(4) 新增撰寫基本的Lambda 以用在接下fb app message hook回應

(5) 新增 API Gateway 的GET/POST，對應到Lambda

(6) 設定fb app 的webhook 對應到API Gateway的URL

(7) 讓fb app的設定頁verify(基本上就是http GET) API Gateway

(8) 讓fb app設定頁訂閱message 並記得在lambda程式回覆訊息時使用page token

(9) 此時可以進行知識庫的連結，在AWS建立elasticsearch並且匯入經過程式處理的資料，這裡我們以台灣e院資料為範例。

(10) 修改lambda程式，讓使用者的訊息，在elasticsearch查訊相關訊息，並且回復給原送訊息者

(11) 至此完成，其結果大致如下圖：

2. 詳細步驟：

....<待續>...

如何製作Line聊天機器人：

1.摘要步驟

(1) 到AWS開設帳號。開發過程會用到Lambda, API Gateway, elasticsearch, s3 cloudwatch 等服務。

(2) 到line developer建立帳號以及channel。

(3) 新增並撰寫基本的Lambda 和 api gateway 用以回應之後在line的channel上link時的驗證。Line的api基本上只用到POST

(4) 將自己的line帳號加入剛剛自己增加的channel。就是設好友的意思，這樣才能測試

(5) 將line channel所需要的api key, secret以及token設定在lambda 要傳回給line bot api的地方。

(6) 此時可以進行知識庫的連結，在AWS建立elasticsearch並且匯入經過程式處理的資料，這裡我們以台灣e院資料為範例。

(7) 修改lambda程式，讓使用者的訊息，在elasticsearch查訊相關訊息，並且回復給原送訊息者

(8) 至此完成，其結果大致如下圖：

2. 詳細步驟：

....<待續>...

參考: https://www.facebook.com/sandy4ai/

註一：Turing 就是電影模仿遊戲的主角
註二：詳細步驟還沒有時間寫...反正不見得有人需要:)

9/02/2016

數據分析從零開始 - (1)事前準備

當你打算從零開始，變成一個有足夠能力的資料工程師，一開始會需要準備基本工具。而隨著時間過去，自然而然你會瞭解並且學習到更多工具。

在此提供簡單的確認清單(Check List)，讓在打算開始學習並應用數據分析時的準備參考。

1. 電腦

既然是資料分析，電腦自然是必備工具。

最推薦的是Mac的notebook，如果沒有太大的經濟壓力，最好買記憶體越大的越好。13吋MacBookPro，RAM 16G價格大概四萬八。其他可以考慮dell的linux desktop。

選用Mac或者OS為Linux的電腦有許多原因，內建的終端機(terminal)可在bash等環境快速執行各類型資料處理的前期工作。現在windows也有powershell，並且至今技術工程師在對比unix/linux的shell時，常常會有各種爭論。

不過，就打算從零開始的數據工程師，別想太多，就選unix/linux吧！

2. 作業系統

無論你的電腦是桌上型還是筆記型，無論他原本是什麼作業系統。你都需要一個Linux作業系統。在MacOS上可以安裝VirutalBox或者VMware來執行Linux虛擬機器(VM)

3. 基本知識技能與其標準

雖然說是基本，但真要搞定以下知識與技能需要很長的一段時間，就從零開始的情況而言，「盡你所能」的了解以及練習是不二法門。

(1) Linux基本操作：在終端機(或者Shell)中，完全了解以下幾圖中的指令的意義：
（圖一）

(圖二)

(圖三)

(2) 網路工具自我學習與操作：能有耐心的看完這篇AWS CLI，並且能用AWS CLI上傳檔案到S3。在整個過程，僅使用官方文件，不在google上搜尋非官方說法。

AWS有提供許多免費工具，用在資料分析上非常適合。但是如果你有PB等級的資料，在AWS上做大數據分析是非常花錢的。

(3) 程式設計基本能力：利用python或任何程式語言，將台北市的住宅竊盜公開資料處理分析加總之後，列出各區的竊盜案件次數表。這裡要注意編碼(encoding)的問題。
如下圖：

(4) 英文閱讀能力：

其實英文閱讀能力對數據分析，甚至其他技術學習是非常重要的基礎。如果不習慣閱讀英文，而老是只查中文網頁，那麼就等於少了60%的網路知識存取。

如果對自己的英文閱讀能力有疑慮，可以先試著不查字典看完這本書：How To Read A Book，這本書用詞遣字相當簡單，而書的本身就是「增加閱讀能力」的方式。因為是本很老的書，應該很便宜，或許早已經沒有版權？

9/01/2016

企業巫醫 - MBA無用矣

企業巫醫The Witch Doctors（中譯本為商周出版）是一本距今十一年的老書，但書中對於盛行於商業界的企業管理顧問的見解卻始終精闢。這本書的標題雖然聳動，但內容卻是不只是流於隨想批判，而是踏實的先提出數據，做橫跨時間與空間的研究，最後提出見解。破解在招搖撞騙的「大師」形象。

作者對「大師」的批評相當有建設性，幾乎在1990~2000年間的企管大師，都被他非常精闢而有建設性的評語跟分析過他們所提出的方法論：彼得杜拉克，麥可波特，愛德華戴明等等。而史蒂芬柯维，吉姆柯林斯則是被他列在不入流的範圍。

組織與企業經營的是合併藝術與專業的範圍，在因果模型中屬於複雜的範圍（參考這裡）。換言之，企業的大大小小的決策，與是否能達到效果，很難在事前看出，只能事後瞭解其因果關係。而有趣的，具有戲劇性的論點，逐漸就取代了嚴謹的研究。這讓迷惑於複雜邏輯的人，有了某種追尋的方向，從這個角度來看，「真正」的企管大師也知道這種現象，但他們一方面提出淺顯易懂的見解，另一方面也持續進行研究，這也讓大師的研究結果可供大家參考與學習。

「企業巫醫」則利用根本沒有人可能了解其因果關係，讓自己以有趣的方式解釋因果關係，從而謀利 - 開設顧問公司，提供考取證照方式，提供分析報告，寫書，演講等等。

萬一，自己解釋的因果關係沒發生，當然會拿另一套關係來彌補。就像在原始叢林部落裡的醫生一樣，當有疾病-例如嚴重流感時，會先說明和惡靈的關係，接下來可能拿某些植物的葉片猛力槌打你，打的你又痛又麻的時候叫你回家躺幾天。如果好了，證實的確是惡靈的問題，如果因此病情加重，併發肺炎，表示這樣的懲罰惡靈仍然不滿意，則會換一套方式，直到你痊癒或者死亡 - 當然死亡就表示惡靈趕不走(此段說明彷自企業巫醫一書)

在企管書籍，個人認為最最最有名的巫醫例子應當屬於「從A到A+」。用google搜尋「從A到A+」可以找到非常多人閱讀記錄，甚且有精闢的閱讀心得。該本書所說「嚴謹的長期觀察和研究取得」，分析好公司和「卓越」公司的差別，並且這些從數百家篩選出來的好公司中再篩選的卓越公司，肯定可以「永續經營」？

但是實際上根本不然。

2005年的研究就顯示A+公司，在1996-2005年間，就已經不太算是A+。不到幾年後：11家卓越公司倒了2家，9家之中僅有1家沒受到太大的金融海嘯影響。其中8家在2008危機期間甚至績效平均比其他SP500的公司還差。

從結果來看，從A到A+的理論根本沒用，但是，如同企業巫醫，作者後來竟然還寫了一本「為何A+巨人會倒下」用以自圓其說。非常典型的巫醫行為。

相對於企業巫醫，MBA的價值是否真正有用也很難說。某些研究都顯示，擁有MBA學位的CEO和沒有MBA的CEO在公司經營的成效上，沒有差異（參見這裡）。

然而，某調查顯示，擁有MBA學歷似乎對薪資有幫助(參見這裡），就這個角度來看，擁有MBA似乎還是有用的。但如果仔細看過這類調查，很明顯排除了MBA低薪，以及MBA本身的成本。

反倒已經有百年歷史的最最著名MBA產地的期刊 - 哈佛管理評論的一篇高學歷管理者的迷思。誠懇的點出問題：管理學位取得者，在學習過程中沒有學到真正學到務實的作法，而只是為了取得學位。開始工作之後，如果又沒透過工作經驗，學到新的技能，當然就沒用。

如果沒能對複雜的問題，保持清澄的理智，分析可能的問題，簡化並反覆查證因果關係，踏實的從不同的角度看問題，MBA的學歷可能會創造出一個一個的企業小巫醫，在組織裡三不五時的拿一些最新的企管叢書，當做驅趕惡靈的樹枝，到處鞭打真正在做事情的人。

企業巫醫相關文章：

如何拒絕或調整客戶不合理的需求

實習生的三贏

時間乃最終之敵人? (上)

時間乃最終之敵人? (下）

訂閱：文章 (Atom)

標籤

9/30/2016

以資訊科技產業來說，三贏的情況是：

普通的情況是：

有三輸的情況嗎？

如何達到實習生的三贏策略

9/25/2016

那結論呢？

1. 考慮事實

2. 兵貴神速 v.s. 後發先至

3. 時間乃最終之敵人 ...除非...

一：加速 - 跑的比它快

二：有效利用 - 80/20法則的極端利用

三：心靈層面 - 永遠都有的一招

那結論呢？

9/18/2016

外部取得資料

直接取得可程式化資料

間接取得資料

步驟一：找到正確而適當的目標。

步驟二：以curl或其他工具，先行測試

步驟三：以script撰寫能處理與轉換儲存資料的程式

步驟四：考慮儲存地點

步驟五：慢速進行

9/14/2016

困難一：區別人力與人才

困難二：培育或取得人才

困難三：薪資獎勵

不大幅使用薪資，也能激勵好人才的方式：

(1) 選擇

(2) 人才合作 vs 人力合作

(3) 成長優先 vs 產出優先

9/13/2016

1. 資料的時間，會遠超過自己的想像

2. 在開始進行分析之前，資料整理的所花的時間精力，也會遠超過自己的想像

3. 資料整理，幾乎不可避免

4. 資料整理，沒有捷徑也沒有神奇的密技，只能靠不懈怠的努力耐心以及經驗

5. 實際上有創意，有價值的數據分析，都不能免除資料取得和整理。

第一手資料：

要點一：使用shell 做基本的確認以及雜訊處理。

要點二：用excel做最基本統計檢視

要點三：以自動化的方式產生濃縮的摘要（二手資料）

現存二手資料的資料

要點一：取得過程的紀錄，以及基本分析

要點二：正確性判斷

要點三：自動化進行轉換格式以及二次儲存

外部取得資料

9/05/2016

Facebook/Line 聊天機器人的可能應用：

如何製作Facebook臉書聊天機器人：

如何製作Line聊天機器人：

9/02/2016

1. 電腦

2. 作業系統

3. 基本知識技能與其標準

9/01/2016