[問題] 爬蟲爬不出來 ladie4 PTT批踢踢實業坊

[問題] 爬蟲爬不出來

作者: ladie4 (老雷) 2020-04-28 03:08:53

軟體熟悉度：初學者
問題敘述：
各位大大好，最近找到這個網頁的教學來學爬蟲，本身是商科無程式基礎，但之後業界好
像會用到所以先學習資料科學相關的東西
https://medium.com/chikuwa-tech-study/%E4%BD%BF%E7%94%A8r%E8%AA%9E%E8%A8%80%E9
%80%B2%E8%A1%8C%E7%88%AC%E8%9F%B2-936637f272cb
我按照他的教學點進去裏頭的網頁做做看
https://www.mobile01.com/forumtopic.php?c=29
然後點了第一篇對標題和留言按下檢查之後複製了full xpath
在R裡面打出以下東西:
library(rvest)
library(dplyr)
x=read_html("https://www.mobile01.com/forumtopic.php?c=29")
x
title_path="/html/body/div[1]/main/div[1]/div/div/div/div[1]/div[7]/div/div[2]
/div/div[2]/div[1]/div[1]/div/div/a "
titles=x %>% html_nodes(xpath = "title_path") %>% html_text()
reply_path="/html/body/div[1]/main/div[1]/div/div/div/div[1]/div[7]/div/div[2]
/div/div[2]/div[1]/div[4]/div "
replies=x %>% html_nodes(xpath = "reply_path") %>% html_text()
my.table=data.frame(title=titles,reply=replies)
View(my.table)
語法沒有任何錯誤，但只有跑出一行東西，請問有人知道錯在哪裡嗎
(我跟作者的程式碼幾乎一模一樣，但我的瀏覽器是用估狗的)
另外一個問題，需要會員登入的論壇是不是既無法進行爬蟲呢?
(朋友去伊利爬a片爬不出任何東西)

作者: bboybighead2 (腳毛會唱歌) 2020-04-28 03:34:00

需要登入的網站可以用selenium或送request

作者: ladie4 (老雷) 2020-04-28 03:59:00

謝謝b大我之後會試試看的那上面這個請問您有頭緒嗎……

作者: bboybighead2 (腳毛會唱歌) 2020-04-28 08:01:00

https://i.imgur.com/mMVEgwI.jpg可以觀察一下source的結構，再決定用哪些標籤查找比較方便。或使用chrome的插件selectorgadget滿方便的。然後你的問題是出在html_nodes(xpath = "reply_path") 這裡的reply_path不需要雙引號，不然就不會傳你想要的xpath路徑，而是傳”reply_path”這個字串而已

繼續閱讀

[問題] 想要把一個df變成一欄有2個list ^^mscutechu [問題] For迴圈寫入matrixcwz1110 [問題] 多個rda物件存取問題locka [問題] igraph 特徵中心性問題gensation [問題] nnet單層前饋式類神經網路rebe212296 [問題] t分配cwz1110 [問題] 讀取excel問題totolink [問題] split語法請教khaos [問題] R studio無法乘矩陣ymhs880916 [問題] 將data.frame的數值放入同一向量totolink