假设我有一个数据框,其中包含我使用twitteR收集的推文。我想提取一个子字符串,它是每个推特中包含的另一个数据集的唯一ID。所有ID的格式均相同,由3-4个大写字母组成,后跟一个连字符,然后是一个6位数字。示例为:YLD-000123,YLSL-000323,YLP-000135。我只需要ID,就可以在每条推文上删除其他所有内容。
这是我正在使用的推文的两个示例:
st1="Elijo ENTERTIMER, YLC-000354, como ganador para http://t.co/jclDk8d796 #YoungLionsCo #FantasyLions"
st2="Elijo #AEseTrenNoMeLeSubo, YLSL-000169, como ganador para http://t.co/wPpM7X5ecN #YoungLionsCo #FantasyLions"
tweets=c(st1,st2)
我需要的结果是“ YLC-000354”“ YLSL-000169”。该ID并不总是在逗号之间。
使用方法gsub
:
gsub('.*[^[:alpha:]]([[:alpha:]]+-\\d+).*','\\1',tweets)
#[1] "YLC-000354" "YLSL-000169"
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句