爬蟲(crawler)是什麼? 爬蟲的運作原理

2020 Aug 04 網站搬家  產品開箱  網頁相關

最近常常看到 fb 廣告開課教別人寫爬蟲然後自己做金融的服務能夠用別人的資料來做自己的金融模型當然是很好但什麼是爬蟲? 爬蟲是一種程式簡單說就是瀏覽器只是一般瀏覽器需要把網頁敘述(hml)變成網頁內容 (文字/圖片) 爬蟲不需要顯示內容只要把需要的內容解析出來例如Google就有爬蟲會來爬你的網頁然後索引你的內容提供大家去搜尋引擎查詢那金融的爬蟲主要是去各大揭露商品報價的網站爬取交易的數值存在自己的資料庫中再用自己的算式去算各種數據指標聽起來爬蟲很厲害只要會寫爬蟲程式就可以上網爬各式各樣的資料然後自己存起來分析分析又可以拿出去賣錢真棒那寫爬蟲爬人家的資料都不會有什麼問題嗎? 有問題一堆

著作權/版權問題

如果你爬的是人家彙整過的資料理論上都有這類的問題要是被發現你未經許可爬人家的資料重製販售對方"應該"可以採取法律行動不是沒被告只是人家還在養大魚這類的法律問題我是外行人我們請方道樞律師特別撰文說明XD

授權/經營問題

既然沒有得到別人的授權人家就算不告你也可以整你只要人家天天改格式或是知道爬蟲的IP/行為把你的爬蟲封了你就沒搞頭了看過這個介面吧? 這個就是 Google 做來檔機器人(爬蟲)的工具 Google Recaptcha

爬蟲可不會去點 "我不是機器人" 就算去點 Google Recaptcha 也會出現機器人難以辨識的圖片

跟 Google 鬥智簡直找死一開始你的資料源可能讓你爬把你養大等你大了賺錢了再來收割斷掉你的資料等你無法跟客戶交代再出手跟你要錢

爬蟲不是永遠可靠有效/有用

如同上述問題也許資料源不是故意要封鎖你他只是改版一下你的爬蟲可能就因為網頁的格式變更得重新寫有可能是小改但也有可能是大改如果你沒有自己的團隊是很難持續維護或是應付這種突發情況我手上有個服務叫做 seo-rank.tw 是拿來爬關鍵字排名的之前也是爬 Google 的搜尋結果通常都是等客戶反應沒排名我才知道爬蟲掛了每當掛了我就得熬夜修改程式因為客戶不能一天沒有排名我自己是工程師所以我能自己改如果你的服務有爬蟲又沒有工程師那你就死定了後來我發現網路上有資訊源而且是花錢就可以解決我直接就串對方API 把爬蟲都收了因為維護爬蟲實在是太累了

結論

爬蟲對初期創業來說可能是個機會但如果有一定的規模有賺錢後最好還是弄個付費可靠的資料源不然這種生意是不會長久的

0則留言

爬蟲(crawler)是什麼? 爬蟲的運作原理

2020 Aug 04 網站搬家  產品開箱  網頁相關

著作權/版權問題

授權/經營問題

爬蟲不是永遠可靠有效/有用

結論

相關文章

主機暫時用不到可以先暫停嗎?

王永福教學的技術：翻轉課堂的職業講師祕訣

[php] 從 array 中取值 / get an element from an array

2012 西日本九日遊 Day5 博多 => 大分縣別府市

先有規格才能比價

從這些小細節就知道一間公司的文化跟SOP

爬蟲(crawler)是什麼? 爬蟲的運作原理

2020 Aug 04 網站搬家 產品開箱 網頁相關

著作權/版權問題

授權/經營問題

爬蟲不是永遠可靠有效/有用

結論

相關文章

主機暫時用不到 可以先暫停嗎?

王永福教學的技術：翻轉課堂的職業講師祕訣

[php] 從 array 中取值 / get an element from an array

2012 西日本九日遊 Day5 博多 => 大分縣別府市

先有規格才能比價

從這些小細節就知道一間公司的文化跟SOP

2020 Aug 04 網站搬家產品開箱網頁相關

主機暫時用不到可以先暫停嗎?