[問題]用data.frame中的某個column擷取網頁資料

作者: stinky (stinky)   2014-02-03 21:25:34
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
各位好
我需要下載數百個基因的資料
網址的格式是:
http://www.ncbi.nlm.nih.gov/gene/XXXX
其中XXXX是這些基因的ID(可能是四個數字或更多)
比如GAPDH ID是2597
那連結就是:http://www.ncbi.nlm.nih.gov/gene/2597
如果我的data frame中有一個column是這些IDs
我應該如何寫出簡單的R scripts來擷取這些網頁中的"Summary"中的敘述
並加到原本data.frame中相對應rows 形成一個新的column (不包括"Summary"這字本身)
例如對GAPDH而言就是
"This gene encodes ... variants. [provided by RefSeq, Jan 2014]"
我想應該是用Rcurl跟grep
但因為完全外行
不知道如何逐個ID數值加到Rcurl網址的最後
再將下載的網頁以grep搜尋到的strings加到對應的rows裡
這樣的問題很不專業
如果有任何的提示都歡迎
謝謝各位專家
[程式範例]:
[關鍵字]: R 網頁下載 部分擷取
作者: andrew43 (討厭有好心推文後刪文者)   2014-02-04 05:34:00
二個關鍵:paste() 和 regexpr(). 請見我的回文.

Links booklink

Contact Us: admin [ a t ] ucptt.com