[問題] R爬蟲抓html的問題 grimmq427532 PTT批踢踢實業坊

[問題] R爬蟲抓html的問題

作者: grimmq427532 (Legend) 2016-07-13 10:28:38

[問題類型]:
程式諮詢
[軟體熟悉度]:
使用者(已經有用R 做過不少作品)
[問題敘述]:
昨天開始研究使用R爬蟲，從 celestialgod 大大的code開始起頭
範例中大大抓的是BG版的文章內容，而我是想要抓八卦版的文章標題就好
但發現paste完網址、read_html抓code之後
再使用xml_find_all去抓title會有問題，其值為空 ( 顯示{xml_nodeset(0)} )
往回追read_html，懷疑是不是html碼抓漏了，並沒有抓到title等項
因為開原網站的html來看，在body的部分似乎和抓到的有出入
不知道是不是這樣？還是其他地方有問題？
因為對html不熟悉，如果理解有誤請見諒
[程式範例]
為了研究先只抓15220這一頁
paste(15220, '.html', sep='') %>%
paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[@class='title']/a[@href]")
[環境敘述]:
R version : 3.3.1
[關鍵字]:
crawl
xml2
read_html

作者: clansoda (小笨) 2016-07-13 13:39:00

你沒有通過18檢驗那一關版上搜尋批踢踢可以找到解決方法我輸入的時候要，你這個問題我也碰過把cookie那邊加上一點代碼就可以過關了。

繼續閱讀

[分享] pipe operators in Rcelestialgod [問題] 想用quote指令寫迴圈但碰到問題greatjus [問題] script在不同電腦上路徑設定問題shihs Re: [問題] 處理資料效能詢問celestialgod Re: [問題] 處理資料效能詢問spiderway [問題] 使用 rvest 套件,爬不出表格內容lusa [問題] dynamic variablesdreler1 Re: [問題] 用for迴圈算zscoreclansoda Re: [問題] 處理資料效能詢問memphis [問題] plot中文標題成方格(MAC)hakiooi