[問題]用getURL抓台股代碼 encoding問題

作者: sorder (Reader)   2015-04-26 23:05:19
[問題類型]:
抓資料編碼問題.
[軟體熟悉度]:
請把以下不需要的部份刪除
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
請簡略描述你所要做的事情,或是這個程式的目的
利用R來抓台股股票代碼
但是抓回來的資料是亂的.
兩個網址都是亂的.Orz~
[程式範例]:
//==================================
rm(list=ls(all.names=TRUE))
library(RCurl)
library(XML)
library(bitops)
test =
getURL("http://isin.twse.com.tw/isin/C_public.jsp?strMode=2",encoding="UTF-8")
test2 = getURL("http://www.emega.com.tw/js/StockTable.htm",encoding="big5")
write.table(test,"test.txt")
write.table(test2,"test2.txt")
//==================================
[環境敘述]:
Win7 + RStudio
[關鍵字]:
選擇性,也許未來有用
作者: celestialgod (天)   2015-04-27 12:47:00
爬之前的文章吧,ENCODING在windows很麻煩請愛惜生命跟時間,盡早服用UTF8的LINUX那個選項是用.encoding 第一個網址.encoding='big5'會是正確的檔案第二個檔案一樣少個.,結果就會對
作者: sorder (Reader)   2015-04-27 13:26:00
感謝 爬到了url=URLencode("http://.....")url=getURL(url,.encoding="big5") 即可正確了~~原來是少了個"." Orz
作者: psinqoo (零度空間)   2015-04-28 17:00:00
請愛惜生命跟時間,盡早服用UTF8的LINUX+1
作者: gsuper (Logit(odds))   2015-04-30 00:41:00
parser 還是自己寫好些, strsplit() 萬用

Links booklink

Contact Us: admin [ a t ] ucptt.com