斯图蒂·瓦什尼
我正在尝试使用 hadoop 查询 ghtorrent API 提供的 GitHub 数据。如何将这么多数据(4-5 TB)注入 HDFS?此外,他们的数据库是实时的。是否可以使用pig、hive、hbase等工具在hadoop中处理实时数据?
一个用户
浏览本演示文稿。它描述了您可以连接到他们的 MySql 或 MongoDb 实例并获取数据的方式。基本上你必须共享你的公钥,他们会将该密钥添加到他们的存储库中,然后你就可以 ssh 了。作为替代,你可以下载其定期转储此链接
导入链接:
对于处理实时数据,您无法使用 Pig、Hive 执行此操作。这些是批处理工具。考虑使用 Apache Spark。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
编辑于
我来说两句