[問題] 有關網路爬蟲"網址(url)"的問題 wheado PTT批踢踢實業坊

[問題] 有關網路爬蟲"網址(url)"的問題

作者: wheado (principal component QQ) 2016-08-08 15:05:04

問題：
有關於網頁的"url"問題
程度：
新手
敘述：
我想對一個網站(某個租屋網)進行資料收集，
該網站將屋子訊息每20筆放在一個分頁，
但是當我點入第二個分頁時，
網址在後面只多了"#list"，
當我點入第三個分頁時，仍就是如此，找不到網頁的網址。
想請問有沒有類似的關鍵字可以讓我搜尋相關的問題。
謝謝。
程式：
require("XML")
require("httr")
.get <- GET("https://rent.591.com.tw/")
.content <- content(.get,"text")
.htmlParse <- htmlParse(.content)
.web <- xpathSApply(.htmlParse,"//div[@class='left']/a[@href]",
xmlAttrs)
## The first 20 data information in the page-1.
.web[1,]
環境：
Windows R-3.2.5

作者: andrew43 (討厭有好心推文後刪文者) 2016-08-08 22:59:00

它是靠cookie來決定顯示內容的。找 urlJumpIpByTxt 和urlJumpIp 的值，會決定哪個縣市。至於第幾頁，是由jsPage()的javascript來達成的。總之，你眼睛看到的URL其實對你沒有用處。了解其js的細節才可能了解怎麼控制顯示內容再控制R去讀取。

繼續閱讀

[問題] 如何用R讀取本地的mdb檔?Tampa [問題] bigmemory 用ssd硬碟會變快嗎? f496328mm [問題] 爬蟲相關問題GetRobin Re: [問題] 自動跳過填入驗證碼clansoda [問題] 迴圈中相同名稱都覆蓋了還是記憶體不足greatjus [問題] 關於pchisqsum 做 power simulationx9060000456 [問題] 訓練與測試資料詢問banana08 [問題] 自動跳過填入驗證碼clansoda [問題] 看不是很懂的warning訊息swilly0906 [問題] logit迴歸請教banana08