使用Hadoop查询github数据

斯图蒂·瓦什尼

我正在尝试使用 hadoop 查询 ghtorrent API 提供的 GitHub 数据。如何将这么多数据(4-5 TB)注入 HDFS?此外,他们的数据库是实时的。是否可以使用pig、hive、hbase等工具在hadoop中处理实时数据?

一个用户

浏览演示文稿。它描述了您可以连接到他们的 MySql 或 MongoDb 实例并获取数据的方式。基本上你必须共享你的公钥,他们会将该密钥添加到他们的存储库中,然后你就可以 ssh 了。作为替代,你可以下载其定期转储链接

导入链接:

对于处理实时数据,您无法使用 Pig、Hive 执行此操作。这些是批处理工具。考虑使用 Apache Spark。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

hadoop-大型数据库查询

来自分类Dev

使用hadoop收集异构数据

来自分类Dev

使用github_repos数据集的GCP BigQuery上的SQL查询验证失败

来自分类Dev

使用查询实现数据

来自分类Dev

使用curl查询数据

来自分类Dev

使用查询实现数据

来自分类Dev

mongo-hadoop连接器:如何查询数据

来自分类Dev

将大查询数据导出到内部Hadoop集群中

来自分类Dev

hadoop如何存储数据并使用MapReduce?

来自分类Dev

使用Spring XD在Hadoop中加载数据

来自分类Dev

使用Kafka将数据导入Hadoop

来自分类Dev

使用Spring XD在Hadoop中加载数据

来自分类Dev

Hadoop仅使用主节点处理数据

来自分类Dev

如何使用REST查询Github Enterprise

来自分类Dev

使用if else从firebase查询数据

来自分类Dev

使用联接查询中的数据

来自分类Dev

使用选择数据更新查询

来自分类Dev

使用FirebaseRecyclerAdapter时查询数据

来自分类Dev

将Elasticsearch DSL查询与Hadoop Mapreduce结合使用

来自分类Dev

Hadoop Hive查询优化

来自分类Dev

Hadoop Mapreduce后的查询

来自分类Dev

Hadoop MongoConfigUtil查询限制

来自分类Dev

使用Hadoop MapReduce从CSV文件收集特定数据

来自分类Dev

如何使用Hadoop实时处理Postgres数据库?

来自分类Dev

hadoop中的数据包计数(使用Mapreduce)

来自分类Dev

使用Hadoop存储股市行情数据

来自分类Dev

使用Java API将数据附加到hadoop中的文件

来自分类Dev

如何在MapReduce hadoop中使用GeoLite数据库?

来自分类Dev

什么时候数据足够大才能使用Hadoop?