Re: [問題]htmlParse celestialgod PTT批踢踢實業坊

Re: [問題]htmlParse

作者: celestialgod (å¤©) 2015-05-04 12:53:10

: [問題類型]:
: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
:
: [問題敘述]:
: 1.請問htmlParse返回的結果是否有size限制?
: 我用下面一段code htmlParse返回只有到[[288]],似乎沒有抓完?
: 如果是size的限制有辦法解決嗎?
這我不知道，但是我用RCurl有抓到全部，直接htmlParse就失敗了：
test_doc = getURL(URL,.encoding="big5")
test = htmlParse(test_doc, encoding="big5")
test["//tr"] %>% str() # List of 11655
test_doc = htmlParse(URL,encoding="big5")
test = test_doc["//tr"] %>% str() # List of 288
: 2.我試著用readLines讀同樣的網址,但因沒有換行符號,所有的資料只存成一行,
: 處裡這一類沒有換行符號的網址,有什麼好方法呢?
readLines之後用gsub把你要斷行的地方放進去
EX:
我要把每一個開始或結束的tag後面都放置一個斷行，
這個要用一些regular expression的知識
gsub("(</?[^>]*>)", "\\1\\\n", "<tr><td bgcolor=\"#FAFAD2\" colspan=\"7\">
股票 </td></tr>") %>% sprintf("%s", .) %>% cat()
output:
<tr>
<td bgcolor="#FAFAD2" colspan="7">

股票 


</td>
</tr>

作者: sorder (Reader) 2015-05-05 01:42:00

我用getURL抓出來是完整的,帶入htmlParse出來還是只有部分,這個結果和你看起來不一樣~奇怪~@@"謝謝你的回答,我再研究一下regular expression.^^

作者: celestialgod (å¤©) 2015-05-05 08:18:00

可能跟R版本有關，他應該是有修正我用最新版的3.2.0

作者: sorder (Reader) 2015-05-05 23:55:00

我也是跟你一樣的版本~^^

作者: celestialgod (å¤©) 2015-05-06 00:02:00

那我真的不知道問題了...

作者: sorder (Reader) 2015-05-06 12:28:00

沒關係,謝謝你的回答。

繼續閱讀

[問題]htmlParse sorder Re: [問題] 多欄資料迴圈處理Wush978 [問題] 多欄資料迴圈處理sinclairJ [問題] 讓 shiny 發出聲音psinqoo [問題] 如何取代掉<U+00A0>這種字串tytony [問題]用getURL抓台股代碼 encoding問題sorder 關於自訂函數lofu [問題] 電腦跑不動問題...sinclairJ Re: [問題] 合併類別變數的count (table)celestialgod [問題] 合併類別變數的count (table)sinclairJ