[問題] 爬蟲自動更新程式

作者: WENroger (三個6)   2018-09-19 16:36:26
手機排版請見諒!!!!
是這樣的如題
小弟最近想寫一個爬蟲自動更新程式
程式有以下目的
例如:
我今天爬觀光局網站
將全部景點資訊爬下
過了一個月後觀光局多了10個新的景點
我可以透過這個程式讓爬蟲自動執行
並把這10個新的景點爬下來
請問這個程式是我需要另外再寫一個
還是我可以在python做出一樣目的?
另外就是我該從哪一方面的資訊去起手?
謝謝
作者: gmccntzx1 (o.O)   2018-09-19 16:44:00
你都說了「找了很多資料不太容易吸收」,何不試著講出哪些部份不懂?將那些不了解的部份整理成問題發上來問,讓大家幫你釐清觀念,這樣才能學到東西。不然找了資料給你,大家怎麼知道哪些是你「容易吸收」的呢?https://git.io/vFLQg -> 順便學著怎麼提問
作者: cutekid (可愛小孩子)   2018-09-19 16:58:00
推樓上 g 大分享的「提問的智慧」
作者: WENroger (三個6)   2018-09-19 21:32:00
感謝指教 應該說不知哪裡起手
作者: gmccntzx1 (o.O)   2018-09-19 22:18:00
講明確一點,是不知道怎麼寫爬蟲還是不知道怎麼做到讓爬蟲定時更新? 既然你都說了有找資料,先試著說說看你對哪個部份不了解到不知怎麼起手?過於籠統的問題,別人也很難回答
作者: WENroger (三個6)   2018-09-19 22:37:00
不知道怎麼讓爬蟲做到自動更新,像是網路上提到scrapy可不可以做到這個目的?另外就是先前資料都是匯入excel做整理再匯入資料庫,這樣子的步驟會不會影響爬蟲的自動更新?
作者: gmccntzx1 (o.O)   2018-09-19 22:44:00
關於自動更新,先給你些關鍵字: cron job, scheduler利用這些工具/函式庫去做定期執行爬蟲的工作當然,新舊資料的整合就要看你自己怎麼處理關於第二個問題,你說的先將資料匯入 excel 整理後再匯入資料庫這部份,請問是手動的嗎?如果你寫的爬蟲部份包含將資料抓下來後寫進資料庫,那麼當要抓取的資料量和處理時間會多到你手動處理後再匯修正:會多到和你手動整理資料並匯入的動作起衝突時,那就當然會影響。所以這點你就要考慮:1. 捨棄手動去整理資料的方式,用程式自動化這部份。2. 如果資料非得經過人工處理,那爬蟲就寫好只負責將資料抓下來。剩下處理資料和匯入資料庫的部份,就由自己處理。關於這兩部份,如果有實作上不懂的細節,你可以整理好再上來發問,相信會有更專業的人可以幫到你。
作者: WENroger (三個6)   2018-09-19 23:00:00
感謝g大耐心的解答 未來有不懂的地方還要煩請g大多多解惑 非常感謝!
作者: gmccntzx1 (o.O)   2018-09-19 23:07:00
不會,我僅能幫到這點程度而已。以後發問時盡量說明詳細一點,如果是程式實作的問題,可以照著 SSCCE 或MCVE 的規範描述問題,通常能讓別人更快了解並幫助你。好的提問不僅可以幫助自己,也能讓助人者有收穫,未來也有機會幫助到其他遇到相同問題的人。加油!
作者: rexyeah (ccccccc)   2018-09-19 23:32:00
gm真的很有耐心的仔細回答
作者: WENroger (三個6)   2018-09-19 23:50:00
好的 非常感謝g大!
作者: MCDDD   2018-09-21 21:53:00
g大真的猛!!
作者: innona (小過)   2018-09-24 01:15:00
推g大
作者: cancelpc (阿吉)   2018-09-25 07:38:00
樓主是要練習寫爬蟲,還是有需要?若是需要的話,去查查是否有 opendata 方式直接抓

Links booklink

Contact Us: admin [ a t ] ucptt.com