TS 資訊科技與人才培育: 數據分析從零開始

外部取得資料

最常見的就屬於在網站上資料取得。最近由於透明化政府政策越受到重視，可供老百姓取得的資料就越多，當然可供作為資料分析的運用就多得不得了。

直接取得可程式化資料

資料本來就提供給外部取得用以計算，例如：政府開放資料。資料好不好用，是另外一回事，但起碼大部分的情況下，這類型的資料只要能下載就足夠應用。

有些資料可以api的方式取得，通常需要申請權限，典型的像是facebook graphic api，musicbrainz api，wiki api等等。

假設需要的資料都可直接程式化取得，那真要感謝上帝。資料數據分析就少了一大堆痛苦的事情要處理。

有個重要的技巧：利用Shell以及試算表對資料做基本驗證。這和前篇雷同。不過在此以試算表為例。

外部資料取得如果已經是整理過的，必然可以用很簡單的方式驗證。即便你沒有Excel，也可以先利用google的googledrive產生樞紐分析表。

作法很簡單。以前陣子最有名的資料：不動產時價登錄為例，

(1) 首先，到內政部網站下載公開資料

http://plvr.land.moi.gov.tw/DownloadOpenData。
它提供了很多資料格式，不過請下載csv格式。

內政部雖然是一番好意，提供各種格式資料。但坦白說，只csv格式是真正正確容易處理。其他格式根本是多餘而且難以直接利用，它的xml並沒有定義namespace，會讓需要合併處理xml時，要重新定義所有的node。

(2) 選擇其中一個csv上傳到googledrive，上傳之後是預覽狀況，請參見下圖：

(3) 按下右上角的：使用『google試算表』開啟

這時候會把csv格式自動轉換成google試算表內部格式。請注意這個格式，並非excel。

(4) 在試算表上選擇「資料」，並選取出現的「資料透視表」。要注意的是，這裡雖然是資料透視表，但是其實下一個畫面名稱就變成樞紐分析表了。

(5) 樞紐分析表出現後，是空的。在右邊選擇想要的欄列。之後就可以自動展示簡單分析的結果。

下圖的例子是以桃園的區作為列，建物型態作為欄。並且在「值」的位選擇平方公尺的單價的平均值(Average)。這個基本的分析可以很快的看出來資料的特性。舉例來說，在這段期間，屬於廠辦的交易就只有龍潭區。

間接取得資料

許多有用的資料，都要自己寫程式來取得。特別是，這類型的資料雖然公開，但不期望也不希望被程式大量取得，例如統一編號查詢。這種資料通常會用captcha來阻擋，不過現在破解captcha的工具和機率越來越高，現在比較重要的網站都改成以「請點選以下哪幾張照片裡面有老虎」這種方式處理。

在1996年之前，間接取得資料的通訊協定有很多種。但是，現在http幾乎已經統一可公開間接程式化取得「資料」的所有方式。而也因此，所有間接的，可程式化的取得資料大概都只需要專注在http。

簡單的說，只要

(a)熟知http crawler (爬蟲)技巧

(b)程式化處理html 或其他格式文字

就大概可以解決75%以上的問題。

建議的步驟為：

步驟一：找到正確而適當的目標。

不是所有外部資料都是好資料。倘若你想要蒐集在台灣關於醫療方面的問答資訊。或許你會先透過google隨意查詢一下，接下來，你可能會看到 verywed.com 有很多有趣的訊息和網友經驗。如果你就真的覺得上面的資料有用，那麼你等同是蒐集了眾多無法證實的資訊，造成資料嚴重的可信度問題。

雖然google也並未對所有資料的可信度加以查證，但它的演算法可以利用交互連結，以巨大的資料排比最可能的結果，而巨量資料在很多時候，可以彌補質的問題。

個人的爬蟲和資料蒐集，當然不可能做的和google一樣。至少從零開始的時候是不可能。因此，有意義，可信的資料來源變得很重要。

以前述的醫療資訊而言，台灣衛服部的台灣e院網站所提供的問答資料更具可信度。因為，回答問題必然是「具名」的醫生，當然其專業和可信度比「不具名的網友」高很多。

台灣e院看似複雜，但簡單來說所有的Q&A檔案歷史，都可以由一個ShowDetail.php加上簡單的參數以GET方法取得細節。每個網站的作法都不一樣，仔細觀察每個查詢按鈕，加上一些經驗與知識，絕大部分的網站都可以找到某種規則。比較複雜的網站，請善用瀏覽器的「開發人員工具」。

步驟二：以curl或其他工具，先行測試

在mac或linux上都有的curl指令，是在撰寫爬蟲程式之前，最方便先測試的小工具。

在很多時候，甚至可以利用curl配合wget，可以連程式都不用寫就抓取一整個靜態網站的資料。

例如，以下指令可以取得q_no=111521的網頁資料。（參見下圖)

#curl http://sp1.hso.mohw.gov.tw/doctor/All/ShowDetail.php?q_no=111521 -o onepage.html

步驟三：以script撰寫能處理與轉換儲存資料的程式

以台灣e院為例，要取得所有Q&A的歷史檔，只要知道「大概」最後的q_no編號，再寫個簡單的python程式即可。

要特別處理的地方只有：

(a) 不存在的編號：每個網站處理不存在的resource方式各有不同，以台灣醫院為例，仍然會在http reponse中回應200，但是內容改變

(b) 編碼：這個網站使用big5，但為了未來處理方便，最好先轉換成UTF-8。範例中使用requests取得網頁之後，理解編碼並且轉碼。注意!大部分的big5會被誤以為是ISO-8859-1因此要先強行指定為big5之後再轉換

程式碼參考如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import requests

import time

import sys

from io import StringIO

from lxml import etree

from datetime import datetime

for i in range(34500,34520):

time.sleep(3)

print('working on'+str(i))

url='http://sp1.hso.mohw.gov.tw/doctor/All/ShowDetail.php?q_no='

r = requests.get(url+str(i))

r.encoding = 'big5'

htmlstr = r.text

if htmlstr.count(u'不存在</h1>') > 0:

print('ignore '+str(i))

continue

parser = etree.HTMLParser()

sio = StringIO(htmlstr)

tree = etree.parse(StringIO(htmlstr), parser)

question = tree.find(".//li[@class='ask']")

allq =""

for t in question.itertext():

allq = allq + t

dr = tree.find(".//li[@class='doctor']").text

ans = tree.find(".//li[@class='ans']")

alla = ""

for t in ans.itertext():

t.replace("\n","")

alla = alla+t

oneResult = {'a':alla,'q':allq,'dr':dr}

print(oneResult)

步驟四：考慮儲存地點

網頁可以儲存為靜態檔案，也可以分析欄位後，儲存在傳統資料庫，但近年來更流行存在nosql中。

可選用的nosql非常多，mongodb, AWS的dynamodb, elasticsearch, couchbase...都可以。

前述的範例，倒數第二行：

oneResult = {'a':alla,'q':allq,'dr':dr}

其目的就是在於轉換為python dict之後，很容易處理為json或者直接利用各nosql的sdk，存入到儲存地點。

步驟五：慢速進行

大部分的網站其資料當然是公開讓廣大網友使用。然而，程式化使用，例如利用爬蟲大量下載，通常是網站管理員不會特別注意到，然而爬蟲程式的確有可能讓網站變慢。

作為一個自治網路世界的好公民，首先應該先了解該網站是否有robots.txt，也就是定義爬蟲程式的規範。如果有，那就應當遵循。如果沒有，應該要在爬蟲程式中，適度的停一段時間。

例如，以前述範例來說，在for迴圈中使用time.sleep(3)，讓每一個http request都等3秒鐘之後才進行。這樣雖然有可能讓爬蟲程式本來需要1小時就完成，變成足足3小時以上，但可以確保該網站不會受到你的爬蟲程式太多影響。

TS 資訊科技與人才培育

標籤

9/18/2016

數據分析從零開始 - (3)外部取得資料