[問題] 碰到有筆數限制的網站該怎麼辦

作者: m7413005 (小魚)   2020-10-13 23:56:00
大家好,不好意思我是小菜鳥,最近想要從司法院法學資料檢索系統抓取特定法條相關的
判決書內容,發現網站會限制顯示的筆數,例如總數2萬筆的資料,前台只會顯示500筆,
用R爬下來的資料,也只有500筆,在網路上爬了一陣子的文,找不太到相關的討論,想請
教各位先進,該怎麼做才能抓到完整的資料呢?
先謝謝提點了!
作者: locka (locka)   2020-10-14 01:08:00
有關爬蟲的問題基本上任何程式語言都是一樣的,就是模擬人的操作方式,例如全部兩萬筆第一頁只顯示前五百筆,你會去點下一頁,那麼爬蟲就是用程式碼下參數去取得第二頁之後的資料,這部分概念細節跟html技術比較相關。說了這麼多,還是建議你發問時明確一點,例如附上網址跟程式碼範例,不然眾版友也是愛莫能助:)
作者: andrew43 (討厭有好心推文後刪文者)   2020-10-14 16:52:00
司法院網站似乎是超過500筆則一律最多只給500筆,和分頁造成的麻煩不太一樣。我想這是無解的,只能先做更精確的查尋。
作者: locka (locka)   2020-10-14 17:30:00
只給500這點滿奇怪的,意思是永遠都搜尋不到500筆以後的資料嗎?
作者: jack155861 (蕭)   2020-10-18 08:12:00
我爬過你必須做更精準查詢而且司法站網站似乎很怕別人爬 三不五時改版...

Links booklink

Contact Us: admin [ a t ] ucptt.com