我正在尝试创建一个工作流,其中AWS Glue ETL作业将从外部REST API而不是S3或任何其他AWS内部源中提取JSON数据。那有可能吗?有人吗 请帮忙!
是的,我的确从诸如Twitter,FullStory,Elasticsearch之类的REST API中提取数据。通常,我确实使用Python Shell作业进行提取,因为它们的速度更快(相对较小的冷启动)。完成后,它会触发一个Spark类型的作业,该作业仅读取我需要的json项目。我使用请求pyhton库。
为了将数据保存到S3中,您可以执行以下操作
import boto3
import json
# Initializes S3 client
s3 = boto3.resource('s3')
tweets = []
//Code that extracts tweets from API
tweets_json = json.dumps(tweets)
obj = s3.Object("my-tweets", "tweets.json")
obj.put(Body=data)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句