使用R进行网页抓取

Jian Zhang

我需要从很多这样的网页上获取列表:https : //fossilplants.info/genus.htm?page =3我尝试使用多个R包(例如rvest和XML)来做到这一点,但没有弄清楚了解如何使其工作。有人可以帮我吗?非常感谢。

罗纳克·沙

我们可以这样使用rvest

library(rvest)
library(purrr)

url <- 'https://fossilplants.info/genus.htm?page=3'

url %>%
  read_html() %>%
  html_nodes('h1') %>%
  html_text() %>%
  gsub('[\r\n\t]', '', .)

# [1] "Genus Abies-pollenites Thierg. in Raatz Abh. Preuss. Geol. Landesanst., Neue Folge, (183): 16.  26 Jan 1938"               
# [2] "Genus Abieticedripites Maljavk. Trudy Vsesoyuzn. Neft. Nauchno-Issl. Geol.-Razved.  Inst., N. S., (119): 103.  11 Jul 1958"
# [3] "Genus Abietineae-pollenites R. Potonié Palaeontographica, Abt. B, Paläophytol., 91(5-6): 144, 145.  Apr 1951"              
# [4] "Genus Abietineaepollenites R. Potonié in Delcourt, Sprumont Mém. Soc. Belge Géol.,  N. Sér. 4°, (5): 51.  1955"            
# [5] "Genus Abietipites Wodehouse Bull. Torrey Bot. Club, 60(7): 491.  Oct 1933"                                                 
# [6] "Genus Abietites Maljavk. Trudy Vsesoyuzn. Neft. Nauchno-Issl. Geol.-Razved.  Inst., N. S., (231): 142.  10 Aug 1964"       
# [7] "Genus Abietites Hising. Lethaea Svecica 110.  7 Dec 1836"                                                                  
# [8] "Genus Abietopitys Kräusel Beitr. Geol. Erforsch. Deutsch. Schutzgeb., (20): 32.  11 Aug 1928"                              
# [9] "Unranked Abietosaccites Erdtman Svensk Bot. Tidskr., 41(1): 110.  26 Mar 1947"                                             
#[10] "Genus Abietoxylon  73.  " 

如果要对多个页面执行此操作,则可以更改url之类,并执行相同的功能。

map(1:3, ~{
   url <- sprintf('https://fossilplants.info/genus.htm?page=%d', .x)
   url %>%
     read_html() %>%
     html_nodes('h1') %>%
     html_text() %>%
     gsub('[\r\n\t]', '', .)
}) %>% flatten_chr()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用PhantomJS进行网页抓取

来自分类Dev

使用SED进行网页抓取

来自分类Dev

使用Python进行网页抓取

来自分类Dev

使用Rcurl进行网页抓取

来自分类Dev

使用PhantomJS进行网页抓取

来自分类Dev

使用R进行网页抓取-未加载完整的网站数据

来自分类Dev

使用 R 进行网页抓取 - 多页表

来自分类Dev

使用 R 进行网页抓取 - 没有 HTML 可见

来自分类Dev

R,使用xpathSApply抓取网页

来自分类Dev

在R中进行网页抓取(带循环)

来自分类Dev

使用Google Apps脚本进行网页抓取

来自分类Dev

使用python在Android上进行网页抓取

来自分类Dev

使用python从.aspx网站进行网页抓取

来自分类Dev

使用python3进行网页抓取

来自分类Dev

使用请求模块进行网页抓取

来自分类Dev

使用python在Android上进行网页抓取

来自分类Dev

使用 BeautifulSoup FindAll 进行网页抓取

来自分类Dev

如何使用 BeautifulSoup 进行网页抓取

来自分类Dev

使用 Python 进行 Tripadvisor 网页抓取

来自分类Dev

使用 BeautifulSoup 进行网页抓取 -- Python

来自分类Dev

使用 Python BeautifulSoup 进行网页抓取

来自分类Dev

自动扩展网页的折叠部分以在R中进行网页抓取

来自分类Dev

用R进行网页抓取。从网页中提取评分标记

来自分类Dev

使用R进行网页抓取:该网站有两个下拉菜单

来自分类Dev

使用R(rvest)从金融网站上进行网页抓取数据

来自分类Dev

使用 R 和选择器小工具进行网页抓取

来自分类Dev

使用并行化用R抓取网页

来自分类Dev

使用R和Chrome抓取网页