我有这本书的谷歌网页——作者是Glenn M. Wong
,就在主标题下。
我想使用典型rvest
方法提取中间名。例如,仅获取姓氏:
last_name <- url %>%
html_nodes('#bookinfo div:nth-child(1) span') %>%
html_text %>%
sub(".* ", "", .)
然后是名字:
first_name <- url %>%
html_nodes('#bookinfo div:nth-child(1) span') %>%
html_text %>%
sub(" .*", "", .)
我如何获得中间名?在这种情况下,它只是首字母,但在全名的情况下,我想要整个东西。这不起作用:
sub(" .* ", "", .)
如果只有名字/姓氏,代码效果很好。但是,如果中间名存在,一切都会变糟。如果有的话,提取中间名的最佳方法是什么?
你可能会用
sub("^[^\\s]+\\s(.*)\\s.*$", "\\1", .)
完整代码
url <- "https://books.google.de/books?id=qEELS7T_Tm0C&dq=NHL+teams&source=gbs_navlinks_s&redir_esc=y"
library(rvest)
url %>%
read_html() %>%
html_nodes('#bookinfo div:nth-child(1) span') %>%
html_text() %>%
sub("^[^\\s]+\\s(.*)\\s.*", "\\1", .)
# [1] "M."
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句