[問題] 新手爬蟲post cookie問題

作者: wheado (principal component QQ)   2016-03-21 15:10:10
問題是這樣子,前陣子套件httr似乎有經過一些改變,
似乎採用了比較新的套件xml2裡面的函數,
因此,再爬取PTT八卦版文章出現了錯誤,
無法再使用httr的指令set_cookie("over18"="1")
搭配xpathSApply來抓取八卦板index跟裡面的文章內容。
所以想從RCurl套件中做一個Post的動作,
從網路上看高手用Python可以很輕鬆的就解決,
可是自己GOOGLE卻找不到用R解決的辦法QQ
不懂cookie這種東西是如何運作?
要如何用R讓他運作?
一些關鍵字: RCurl cookiefile cookiejar postForm
作者: celestialgod (天)   2016-03-21 15:30:00
我用GET + set_cookie一樣可以抓阿@@x是GET下來的物件,要文字就用content(x, "text")配xml2的話就用下面的指令xml_find_all(content(x),"//div[@id='main-content']")再%>% xml_text就可以抓整篇文章下來了windows再搭配stri_conv轉成big5#1MwjtX4d (R_Language)如果是要用XML就把content(x, "text")丟到htmlParse
作者: wheado (principal component QQ)   2016-03-21 16:11:00
太神啦 我等等來試試看!! 謝謝大大我弄這個弄到好幾天都睡不好 QQ

Links booklink

Contact Us: admin [ a t ] ucptt.com