
爬蟲(crawler)是什麼? 爬蟲的運作原理
2020 Aug 04 網站搬家 產品開箱 網頁相關
最近常常看到 fb 廣告
開課教別人寫爬蟲
然後自己做金融的服務
能夠用別人的資料來做自己的金融模型
當然是很好
但什麼是爬蟲?
爬蟲是一種程式
簡單說就是瀏覽器
只是一般瀏覽器需要把網頁敘述(hml)變成網頁內容 (文字/圖片)
爬蟲不需要顯示內容
只要把需要的內容解析出來
例如Google就有爬蟲
會來爬你的網頁
然後索引你的內容
提供大家去搜尋引擎查詢
那金融的爬蟲
主要是去各大揭露商品報價的網站
爬取交易的數值
存在自己的資料庫中
再用自己的算式去算各種數據指標
聽起來爬蟲很厲害
只要會寫爬蟲程式 就可以上網爬各式各樣的資料
然後自己存起來
分析分析 又可以拿出去賣錢
真棒
那寫爬蟲爬人家的資料 都不會有什麼問題嗎?
有
問題一堆
爬蟲可不會去點 "我不是機器人"
就算去點
Google Recaptcha 也會出現機器人難以辨識的圖片
跟 Google 鬥智簡直找死
一開始你的資料源可能讓你爬
把你養大
等你大了 賺錢了
再來收割 斷掉你的資料
等你無法跟客戶交代 再出手跟你要錢

著作權/版權問題
如果你爬的是人家彙整過的資料 理論上都有這類的問題 要是被發現你未經許可 爬人家的資料 重製販售 對方"應該"可以採取法律行動 不是沒被告 只是人家還在養大魚 這類的法律問題我是外行人 我們請方道樞律師特別撰文說明XD授權/經營問題
既然沒有得到別人的授權 人家就算不告你 也可以整你 只要人家天天改格式 或是知道爬蟲的IP/行為 把你的爬蟲封了 你就沒搞頭了 看過這個介面吧? 這個就是 Google 做來檔機器人(爬蟲)的工具 Google Recaptcha
