[問題] 有關網路爬蟲"網址(url)"的問題

作者: wheado (principal component QQ)   2016-08-08 15:05:04
問題:
有關於網頁的"url"問題
程度:
新手
敘述:
我想對一個網站(某個租屋網)進行資料收集,
該網站將屋子訊息每20筆放在一個分頁,
但是當我點入第二個分頁時,
網址在後面只多了"#list",
當我點入第三個分頁時,仍就是如此,找不到網頁的網址。
想請問有沒有類似的關鍵字可以讓我搜尋相關的問題。
謝謝。
程式:
require("XML")
require("httr")
.get <- GET("https://rent.591.com.tw/")
.content <- content(.get,"text")
.htmlParse <- htmlParse(.content)
.web <- xpathSApply(.htmlParse,"//div[@class='left']/a[@href]",
xmlAttrs)
## The first 20 data information in the page-1.
.web[1,]
環境:
Windows R-3.2.5
作者: andrew43 (討厭有好心推文後刪文者)   2016-08-08 22:59:00
它是靠cookie來決定顯示內容的。找 urlJumpIpByTxt 和urlJumpIp 的值,會決定哪個縣市。至於第幾頁,是由jsPage()的javascript來達成的。總之,你眼睛看到的URL其實對你沒有用處。了解其js的細節才可能了解怎麼控制顯示內容再控制R去讀取。

Links booklink

Contact Us: admin [ a t ] ucptt.com