使用 R 从网页中提取中间名

纸器

我有这本书的谷歌网页——作者是Glenn M. Wong,就在主标题下。

我想使用典型rvest方法提取中间名例如,仅获取姓氏:

last_name <- url %>% 
  html_nodes('#bookinfo div:nth-child(1) span') %>% 
  html_text %>% 
  sub(".* ", "", .)

然后是名字:

first_name <- url %>% 
  html_nodes('#bookinfo div:nth-child(1) span') %>% 
  html_text %>% 
  sub(" .*", "", .)

我如何获得中间名?在这种情况下,它只是首字母,但在全名的情况下,我想要整个东西。这不起作用:

sub(" .* ", "", .)

如果只有名字/姓氏,代码效果很好。但是,如果中间名存在,一切都会变糟。如果有的话,提取中间名的最佳方法是什么?

马库斯

你可能会用

sub("^[^\\s]+\\s(.*)\\s.*$", "\\1", .)

完整代码

url <- "https://books.google.de/books?id=qEELS7T_Tm0C&dq=NHL+teams&source=gbs_navlinks_s&redir_esc=y"

library(rvest)
url %>% 
  read_html() %>% 
  html_nodes('#bookinfo div:nth-child(1) span') %>% 
  html_text() %>% 
  sub("^[^\\s]+\\s(.*)\\s.*", "\\1", .)
# [1] "M."

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在R中使用正则表达式从网页中提取文本和数字

来自分类Dev

使用R从网页提取元描述

来自分类Dev

尝试使用HtmlAgilityPack从网页中提取数据

来自分类Dev

使用Jsoup从网页中提取语言

来自分类Dev

使用Python从多个网页中提取日期

来自分类Dev

使用python scrapy从网页中提取链接

来自分类Dev

使用 VBA 从网页表格中提取数据

来自分类Dev

用R进行网页抓取。从网页中提取评分标记

来自分类Dev

使用R从pdf文件中提取数据

来自分类Dev

使用 R 从全名中提取姓氏

来自分类Dev

…… 使用 R 从 API 中提取数据的延续

来自分类Dev

使用SSIS派生列提取中间名

来自分类Dev

从网页[R]中提取所有(可能的)可选日期值

来自分类Dev

使用R从动态网页提取文本

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用wget和Perl脚本从网页中提取信息

来自分类Dev

使用Python从不断更新的网页中提取内容

来自分类Dev

如何通过Python使用Selenium从网页中提取文本$ 7.56

来自分类Dev

如何使用rvest从网页中提取选择性数据?

来自分类Dev

使用BeautifulSoup从网页中提取文本和图像

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用Qt Creator从网页的源代码中提取信息

来自分类Dev

更改页面后使用vba从网页中提取文本

来自分类Dev

使用php从网页中提取特定数据

来自分类Dev

使用Google App脚本从网页中的表中提取值

来自分类Dev

使用 Python 抓取网页时从链接中提取 href

来自分类Dev

使用 Google 表格从网页抓取中提取链接文本

来自分类Dev

使用VBA从Excel中的网页中提取表格

来自分类Dev

使用 MSXML2.XMLHTTP 从网页中提取 JSON 值

Related 相关文章

热门标签

归档