使用 R 从足球参考资料中抓取阵容数据

杰里米·洛萨克

我似乎总是在使用 Python 或 R 抓取参考站点时遇到问题。每当我在 R 中使用我的普通 xpath 方法 (Python) 或 Rvest 方法时,我想要的表似乎永远不会被抓取器拾取。

library(rvest)

url = 'https://www.pro-football-reference.com/years/2016/games.htm'

webpage = read_html(url)

table_links = webpage %>% html_node("table") %>% html_nodes("a")
boxscore_links = subset(table_links, table_links %>% html_text() %in% "boxscore")
boxscore_links = as.list(boxscore_links)

for(x in boxscore_links{
  keep = substr(x, 10, 36)
  url2 = paste('https://www.pro-football-reference.com', keep, sep = "") 
  webpage2 = read_html(url2)
  home_team = webpage2 %>% html_nodes(xpath='//*[@id="all_home_starters"]') %>% html_text()
  away_team = webpage2 %>% html_nodes(xpath='//*[@id="all_vis_starters"]') %>% html_text()
  home_starters = webpage2 %>% html_nodes(xpath='//*[(@id="div_home_starters")]') %>% html_text()
  home_starters2 = webpage2 %>% html_nodes(xpath='//*[(@id="div_home_starters")]') %>% html_table()
  #code that will bind lineup tables with some master table -- code to be written later 
}

我试图刮起首发阵容表。第一段代码提取 2016 年所有 boxscore 的 url,for 循环进入每个 boxscore 页面,希望提取“Insert Team Here”Starters 领导的表格。

这是一个链接,例如:' https://www.pro-football-reference.com/boxscores/201609110rav.htm '

当我运行上面的代码时, home_starters 和 home_starters2 对象包含零元素(理想情况下它应该包含我试图引入的表或表的元素)。

我感谢您的帮助!

亚历克斯·奇萨赞

我花了三个小时试图弄清楚这一点。这就是它应该如何完成。这是我的例子,但我相信你可以将它应用到你的例子中。

"https://www.pro-football-reference.com/years/2017/" %>% read_html() %>% html_nodes(xpath = '//comment()') %>%    # select comments
  html_text() %>%    # extract comment text
  paste(collapse = '') %>%    # collapse to single string
  read_html() %>%    # reread as HTML
  html_node('table#returns') %>%    # select desired node
  html_table() 

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用R获取足球(足球)统计数据

来自分类Dev

使用R从TripAdvisor抓取数据

来自分类Dev

使用R Web抓取数据

来自分类Dev

如何在参考资料中读取.txt文件

来自分类Dev

在参考资料中读取和写入Excel文件

来自分类Dev

Google表格:如何在其他表格的参考资料上使用CLEAN函数

来自分类Dev

R中的足球数据-使用if语句检查元素中缺少的属性吗?

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用R进行网页抓取

来自分类Dev

R,使用xpathSApply抓取网页

来自分类Dev

烦恼如何从该网站上抓取数据(使用R)

来自分类Dev

如何使用R从框架内的网站抓取数据?

来自分类Dev

使用R进行网页抓取-未加载完整的网站数据

来自分类Dev

在R中使用RVest从html网页抓取某些数据

来自分类Dev

如何使用R从javascript饼图中抓取网络数据?

来自分类Dev

使用R抓取数据时如何添加循环?

来自分类Dev

使用r处理数据

来自分类Dev

使用R合并数据

来自分类Dev

使用R重塑数据

来自分类Dev

使用R而不使用Selenium的Web抓取

来自分类Dev

使用参考行时的R参考列

来自分类Dev

使用RGLPK在R中进行幻想足球线性编程

来自分类Dev

使用R在一天之内使用4个网址从网站上抓取数据

来自分类Dev

.gitignore 参考资料和其他

来自分类Dev

使用R在imdb中进行Web抓取

来自分类Dev

使用R自动进行网络抓取

来自分类Dev

使用并行化用R抓取网页

来自分类Dev

使用R和Chrome抓取网页

来自分类Dev

使用RVest和R的Web抓取html