[問題] R爬蟲抓html的問題

作者: grimmq427532 (Legend)   2016-07-13 10:28:38
[問題類型]:
程式諮詢
[軟體熟悉度]:
使用者(已經有用R 做過不少作品)
[問題敘述]:
昨天開始研究使用R爬蟲,從 celestialgod 大大的code開始起頭
範例中大大抓的是BG版的文章內容,而我是想要抓八卦版的文章標題就好
但發現paste完網址、read_html抓code之後
再使用xml_find_all去抓title會有問題,其值為空 ( 顯示{xml_nodeset(0)} )
往回追read_html,懷疑是不是html碼抓漏了,並沒有抓到title等項
因為開原網站的html來看,在body的部分似乎和抓到的有出入
不知道是不是這樣?還是其他地方有問題?
因為對html不熟悉,如果理解有誤請見諒
[程式範例]
為了研究先只抓15220這一頁
paste(15220, '.html', sep='') %>%
paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[@class='title']/a[@href]")
[環境敘述]:
R version : 3.3.1
[關鍵字]:
crawl
xml2
read_html
作者: clansoda (小笨)   2016-07-13 13:39:00
你沒有通過18檢驗那一關版上搜尋批踢踢可以找到解決方法我輸入的時候要,你這個問題我也碰過把cookie那邊加上一點代碼就可以過關了。

Links booklink

Contact Us: admin [ a t ] ucptt.com