[問題] 新手R爬蟲問題 xyz6206a PTT批踢踢實業坊

[問題] 新手R爬蟲問題

作者: xyz6206a (xyz6206a) 2016-03-16 21:15:11

各位R前輩大家好! 我最近開始練習用R寫爬蟲(也是第一次寫爬蟲)
因為本身經驗不足一直卡卡的~~
我想要爬以下這個網站
https://global.factiva.com/np/default.aspx?NAPC=P&inpt=Factiva
我想要爬裡面的新聞資料，但我不清楚開怎麼設XPATH
網站新聞圖給各位做參考

所以我試著用/html/body
結果爬不出東西。
我再附上我自己寫的一小段給大家點評，希望大家
能指出我有什麼地方錯誤，謝謝。
library(XML)
>
res=GET(url="https://global.factiva.com/ha/default.aspx?ftx=died#./!?&_suid=1458132523982001469636911677985")
> xml=htmlParse(res,encoding="UTF-8")
> xpath="/html/body"
> text=xml[xpath]
> print(text)
[[1]]
<body class="">
<script type="text/javascript">
<![CDATA[
<!

作者: JackBaska (Baska) 2016-03-16 23:08:00

用chrome嗎？infoLite跟selectorGadget都可以拿xpath

作者: psinqoo (é›¶åº¦ç©ºé–“) 2016-03-17 08:40:00

rvest 包

作者: xyz6206a (xyz6206a) 2016-03-17 22:50:00

目前還遇到一個困難那個資料庫竟然要登入QQ

作者: JackBaska (Baska) 2016-03-18 00:16:00

google: session 然後開始查cookie資訊如果要抓的資料不介意速度的話可以改用python的模擬selenium, R有沒有類似套件我還不確定

r有rSeleniumRSelenium

作者: sulaxd (SulaXD) 2016-03-19 13:18:00

透過RSelenium可以解決登入問題

繼續閱讀

Re: [問題] dataframe轉換list col name問題celestialgod [問題] dataframe轉換list col name問題clansoda [問題] R原文書購買管道dodo4218 Re: [問題] 關於使用者自行輸入值的問題celestialgod Re: [問題] 轉換資料成table格式celestialgod [問題] 轉換資料成table格式clansoda [問題] shiny-add notes with mouse eventnaturalsmen [問題] DT套件datatable顯示中文問題tytony [情報] Visual Studio也有R了喔~damody [問題] findintervalyaowei2010