使用R进行网页抓取-未加载完整的网站数据

冰咖啡

我正在尝试使用R网站抓取以下网站:https ://www.ebi.ac.uk/gxa/genes/ensg00000177455?bs=%7B%22homo%20sapiens%22%3A%5B%22ORGANISM_PART%22%5D% 7D&ds =%7B%22kingdom%22%3A%5B%22animals%22%5D%7D#differential

我想要表格中的信息。它不必采用任何特定的格式-我只需要表信息。

但是,当我使用:

library(RCurl)
website = getURL("https://www.ebi.ac.uk/gxa/genes/ensg00000177455?bs=%7B%22homo%20sapiens%22%3A%5B%22ORGANISM_PART%22%5D%7D&ds=%7B%22kingdom%22%3A%5B%22animals%22%5D%7D#differential")

表信息不存在于website对象中。

我以为可能是因为该网站使用的是javascript,但是当我尝试使用PhantomJS进行抓取时,我也未获取表信息。

需要注意的是,我使用的.js脚本是:

#!/usr/bin/env phantomjs

"use strict";

var system = require('system');
var fs = require('fs');

var page = new WebPage()

page.open(url, function (status) {
  just_wait();
});

function just_wait() {
  setTimeout(function() {
    fs.write('temp.html', page.content, 'w');
    phantom.exit();
  }, 2500);
}

谁能建议如何在R中获取此数据?

如果右键单击页面,选择“检查元素”并转到“网络”选项卡,则可以看到该页面发出的请求。如果刷新页面,则会看到向https://www.ebi.ac.uk/gxa/json/search/differential_results?geneQuery=%255B%257B%2522value%2522%发出了一个大型XHR(数据)请求253A%2522ensg00000177455%2522%257D%255D&conditionQuery =&species = homo + sapiens,其中包含您想要的表。

可以使用以下示例在R中轻松阅读jsonlite

url <- "https://www.ebi.ac.uk/gxa/json/search/differential_results?geneQuery=%255B%257B%2522value%2522%253A%2522ensg00000177455%2522%257D%255D&conditionQuery=&species=homo+sapiens"

res <- jsonlite::read_json(url)

# the first row
res[["results"]][[1]]

要将嵌套列表结构转换为data.frame,我建议查看https://tidyr.tidyverse.org/reference/hoist.html

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类常见问题

在使用“ rvest”的R中进行网页抓取时,将基于特定行信息将其他变量合并到数据中的最佳实践是什么?

来自分类Dev

摇铃R未加载数据

来自分类Dev

WebView未加载网页

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用PhantomJS进行网页抓取

来自分类Dev

使用R从网络上下载javascript加载数据?棘手的网页抓取

来自分类Dev

使用SED进行网页抓取

来自分类Dev

使用F#进行网页抓取股票股息数据

来自分类Dev

使用Selenium和Python抓取Morningstar网站。Selenium没有下载完整的网页

来自分类Dev

使用R进行网页抓取

来自分类Dev

如何抓取使用node.js异步加载数据的网站?

来自分类Dev

使用Python进行网页抓取

来自分类Dev

使用R进行网页抓取:该网站有两个下拉菜单

来自分类Dev

使用python从.aspx网站进行网页抓取

来自分类Dev

python中的Web抓取未加载数据

来自分类Dev

使用python请求从网页上抓取数据

来自分类Dev

在循环结束时合并数据帧以进行网页抓取

来自分类Dev

在使用“ rvest”的R中进行网页抓取时,将基于特定行信息将其他变量合并到数据中的最佳实践是什么?

来自分类Dev

在R中使用RVest从html网页抓取某些数据

来自分类Dev

摇铃R未加载数据

来自分类Dev

php网页未加载

来自分类Dev

使用Rcurl进行网页抓取

来自分类Dev

使用PhantomJS进行网页抓取

来自分类Dev

使用R从网络上下载javascript加载数据?棘手的网页抓取

来自分类Dev

使用Python进行网页抓取(容器跟踪网站)

来自分类Dev

使用R(rvest)从金融网站上进行网页抓取数据

来自分类Dev

使用 R 进行网页抓取 - 多页表

来自分类Dev

BeautifulSoup-Python:如何抓取尚未加载的数据?

来自分类Dev

无法使用 Scrapy 从网页加载和抓取数据

Related 相关文章

  1. 1

    在使用“ rvest”的R中进行网页抓取时,将基于特定行信息将其他变量合并到数据中的最佳实践是什么?

  2. 2

    摇铃R未加载数据

  3. 3

    WebView未加载网页

  4. 4

    使用R进行网页抓取

  5. 5

    使用PhantomJS进行网页抓取

  6. 6

    使用R从网络上下载javascript加载数据?棘手的网页抓取

  7. 7

    使用SED进行网页抓取

  8. 8

    使用F#进行网页抓取股票股息数据

  9. 9

    使用Selenium和Python抓取Morningstar网站。Selenium没有下载完整的网页

  10. 10

    使用R进行网页抓取

  11. 11

    如何抓取使用node.js异步加载数据的网站?

  12. 12

    使用Python进行网页抓取

  13. 13

    使用R进行网页抓取:该网站有两个下拉菜单

  14. 14

    使用python从.aspx网站进行网页抓取

  15. 15

    python中的Web抓取未加载数据

  16. 16

    使用python请求从网页上抓取数据

  17. 17

    在循环结束时合并数据帧以进行网页抓取

  18. 18

    在使用“ rvest”的R中进行网页抓取时,将基于特定行信息将其他变量合并到数据中的最佳实践是什么?

  19. 19

    在R中使用RVest从html网页抓取某些数据

  20. 20

    摇铃R未加载数据

  21. 21

    php网页未加载

  22. 22

    使用Rcurl进行网页抓取

  23. 23

    使用PhantomJS进行网页抓取

  24. 24

    使用R从网络上下载javascript加载数据?棘手的网页抓取

  25. 25

    使用Python进行网页抓取(容器跟踪网站)

  26. 26

    使用R(rvest)从金融网站上进行网页抓取数据

  27. 27

    使用 R 进行网页抓取 - 多页表

  28. 28

    BeautifulSoup-Python:如何抓取尚未加载的数据?

  29. 29

    无法使用 Scrapy 从网页加载和抓取数据

热门标签

归档