爬蟲(crawler)是什麼? 爬蟲的運作原理

網站搬家 產品開箱 網頁相關
最近常常看到 fb 廣告 開課教別人寫爬蟲 然後自己做金融的服務 能夠用別人的資料來做自己的金融模型 當然是很好 但什麼是爬蟲? 爬蟲是一種程式 簡單說就是瀏覽器 只是一般瀏覽器需要把網頁敘述(hml)變成網頁內容 (文字/圖片) 爬蟲不需要顯示內容 只要把需要的內容解析出來   例如Google就有爬蟲 會來爬你的網頁 然後索引你的內容 提供大家去搜尋引擎查詢   那金融的爬蟲 主要是去各大揭露商品報價的網站 爬取交易的數值 存在自己的資料庫中 再用自己的算式去算各種數據指標   聽起來爬蟲很厲害 只要會寫爬蟲程式 就可以上網爬各式各樣的資料 然後自己存起來 分析分析 又可以拿出去賣錢 真棒 那寫爬蟲爬人家的資料 都不會有什麼問題嗎? 有 問題一堆  

著作權/版權問題

如果你爬的是人家彙整過的資料 理論上都有這類的問題 要是被發現你未經許可 爬人家的資料 重製販售 對方"應該"可以採取法律行動 不是沒被告 只是人家還在養大魚 這類的法律問題我是外行人 我們請方道樞律師特別撰文說明XD  

授權/經營問題

既然沒有得到別人的授權 人家就算不告你 也可以整你 只要人家天天改格式 或是知道爬蟲的IP/行為 把你的爬蟲封了 你就沒搞頭了 看過這個介面吧? 這個就是 Google 做來檔機器人(爬蟲)的工具 Google Recaptcha 爬蟲可不會去點 "我不是機器人" 就算去點 Google Recaptcha 也會出現機器人難以辨識的圖片 跟 Google 鬥智簡直找死 一開始你的資料源可能讓你爬 把你養大 等你大了 賺錢了 再來收割 斷掉你的資料 等你無法跟客戶交代 再出手跟你要錢  

爬蟲不是永遠可靠有效/有用

如同上述問題 也許資料源不是故意要封鎖你 他只是改版一下 你的爬蟲可能就因為網頁的格式變更 得重新寫 有可能是小改 但也有可能是大改 如果你沒有自己的團隊 是很難持續維護 或是應付這種突發情況   我手上有個服務叫做 seo-rank.tw 是拿來爬關鍵字排名的 之前也是爬 Google 的搜尋結果 通常都是等客戶反應沒排名 我才知道爬蟲掛了 每當掛了 我就得熬夜修改程式 因為客戶不能一天沒有排名 我自己是工程師 所以我能自己改 如果你的服務有爬蟲 又沒有工程師 那你就死定了 後來我發現網路上有資訊源 而且是花錢就可以解決 我直接就串對方API 把爬蟲都收了 因為維護爬蟲實在是太累了  

結論

爬蟲對初期創業來說可能是個機會 但如果有一定的規模 有賺錢後 最好還是弄個付費可靠的資料源 不然這種生意是不會長久的