[問題] 網址擷取特定字串

作者: love11098787 (Laipi_lai)   2020-11-21 01:19:22
[問題類型]:
程式諮詢
[軟體熟悉度]:
入門
[問題敘述]:
https://l.facebook.com/l.php?u=https%3A%2F%2Fwww.abc.com.tw%2Fday%2F1234%3Futm_source%3Dfacebook-abc%26utm_medium%3Dpost%26utm_campaign%3Dday%26utm_content%3Dlink-202010-happy%2F1234&h=AT0QK64y8zcRN3Of6strNOOhm2lESra4yGyR73iofDkVvVIYkPTmiVHee6RsQlfU1-delepwkeworiewj0rw2142_jifdks22313
1.想要擷取 %3Dlink 後面的 202010-happy
2.想要擷取 %2F 後面的 1234
試過用很原始的方式strsplit(),但切出來的東西與想像的不符合
想詢問各位R大神有沒有其他建議的語法QQ
by對於正規式表達還是很不熟悉的R入門菜鳥
[關鍵字]:
特定字串擷取
作者: Gjerry   2020-11-21 03:31:00
可以試試看用 % 符號來切割字串,再找你要的字串片段。另外可以試著去查 regular expression ,以及grep 等 functions,或是 stringr package 的用法
作者: cywhale (cywhale)   2020-11-21 19:38:00
y <-regexpr('%3Dlink-(?:[a-zA-Z0-9\\-]+)%2F[0-9]+',x)y值156 你打y還會顯示attr(,"match.length") 27或者attributes(y)$match.length得到27 總長度 另外這裡用了兩個'飾詞't1<-nchar('%3Dlink-')為8 %2F為3設給t2啊要分兩次t<-regexpr('%3Dlink-(?:[a-zA-Z0-9\\-]+)%',xsubstr(x, t+t1, t+attributes(t)$match.length-2)會得到"202010-happy" 一樣抓它的長度t3<-nchar(...) 得到12substr(x, y+attributes(t)$match.length+nchar(t2)+1,y+attributes(y)$match.length-1) 就會抓到'1234'抱歉一邊寫用不到t3但要分兩次,或抓一次用%2F做strsplit
作者: chuubbyy (byetos)   2020-11-22 00:30:00
str1 <- str_extract(string, '(?<=%3Dlink-).+(?=%2F)')str2 <- str_extract(string, paste0('(?<=', str1, '%2F).+(?=&)'))

Links booklink

Contact Us: admin [ a t ] ucptt.com