[問題]htmlParse sorder PTT批踢踢實業坊

[問題]htmlParse

作者: sorder (Reader) 2015-05-03 23:52:52

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
請把以下不需要的部份刪除
入門(寫過其他程式，只是對語法不熟悉)
[問題敘述]:
1.請問htmlParse返回的結果是否有size限制?
我用下面一段code htmlParse返回只有到[[288]],似乎沒有抓完?
如果是size的限制有辦法解決嗎?
2.我試著用readLines讀同樣的網址,但因沒有換行符號,所有的資料只存成一行,
處裡這一類沒有換行符號的網址,有什麼好方法呢?
[程式範例]:
library(XML)
URL = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2"
test_doc = htmlParse(URL,encoding="big5")
test = test_doc["//tr"]
output:
......
<tr>
<td bgcolor="#FAFAD2">2352 ?蔔??/td>
<td bgcolor="#FAFAD2">TW0002352002</td>
<td bgcolor="#FAFAD2">1996/07/22</td>
<td bgcolor="#FAFAD2">銝箫?</td>
<td bgcolor="#FAFAD2">?餉顺?简閮剖?璆?/td>
<td bgcolor="#FAFAD2">ESVUFR</td>
<td bgcolor="#FAFAD2"/>
</tr>
[[288]]
<tr>
<td bgcolor="#FAFAD2">2353 ?긿/td>
</tr>
[環境敘述]:
R version 3.2.0 (2015-04-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese
(Traditional)_Taiwan.950 LC_MONETARY=Chinese (Traditional)_Taiwan.950
[4] LC_NUMERIC=C LC_TIME=Chinese
(Traditional)_Taiwan.950
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] rvest_0.2.0 XML_3.98-1.1 RCurl_1.95-4.6 bitops_1.0-6
loaded via a namespace (and not attached):
[1] httr_0.6.1 magrittr_1.5 tools_3.2.0 stringr_0.6.2
[關鍵字]:
選擇性，也許未來有用

繼續閱讀

Re: [問題] 多欄資料迴圈處理Wush978 [問題] 多欄資料迴圈處理sinclairJ [問題] 讓 shiny 發出聲音psinqoo [問題] 如何取代掉<U+00A0>這種字串tytony [問題]用getURL抓台股代碼 encoding問題sorder 關於自訂函數lofu [問題] 電腦跑不動問題...sinclairJ Re: [問題] 合併類別變數的count (table)celestialgod [問題] 合併類別變數的count (table)sinclairJ Re: [問題] 拆解time-dependent的資料bmka