搜索

搜索

如何设置配置以使Spark / Yarn作业更快？

debugcn 发表于 Dev

3

新手

我是Spark的新手。我一直在阅读有关Spark配置和要设置的不同属性的信息，以便我们可以优化作业。但是我不确定如何确定应该设置什么？

例如，我创建了一个类型为r3.8x Large的集群（1个主节点和10个从节点）

我该如何设定：

spark.executor.memory           
spark.driver.memory             
spark.sql.shuffle.partitions
spark.default.parallelism
spark.driver.cores              
spark.executor.cores             
spark.memory.fraction            
spark.executor.instances

还是应该保留默认值？但是保留默认设置会使我的工作非常缓慢。我的工作有3个小组bas和3个广播的地图。

谢谢

巴韦什

为了调整您的应用程序，您需要了解几件事

1）您需要监视您的应用程序，无论您的群集是否被充分利用，您创建的应用程序使用了多少资源

可以使用各种工具进行监控。Ganglia在Ganglia中，您可以找到CPU，内存和网络使用情况。

2）根据对CPU和内存使用情况的观察，您可以更好地了解应用程序需要进行哪种调整

形成你的火花点

在spark-defaults.conf中

您可以指定所需的序列化类型，即使您可以更改垃圾回收算法，您的应用程序也需要多少驱动程序内存和执行程序内存。

以下是一些示例，您可以根据自己的要求调整此参数

spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.driver.memory              5g
spark.executor.memory            3g
spark.executor.extraJavaOptions  -XX:MaxPermSize=2G -XX:+UseG1GC
spark.driver.extraJavaOptions    -XX:MaxPermSize=6G -XX:+UseG1GC

有关更多详细信息，请参见http://spark.apache.org/docs/latest/tuning.html

希望这可以帮助！！

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-2

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

如何在YARN Spark作业中设置环境变量？

来自分类Dev

在 Yarn 中调整 Spark 作业

来自分类Dev

在Java代码中使用Client将Spark Streaming作业提交给YARN时无法设置配置

来自分类Dev

YARN上的Spark：作业提交v / s是否接受？

来自分类Dev

在YARN中为CLI提交的作业设置applicationTags属性

来自分类Dev

Yarn 和 spark shell 作业上的 Spark 作业的资源管理

来自分类Dev

如何将Flink作业提交到远程YARN群集？

来自分类Dev

如何从 Dask-Yarn 作业中捕获工人的日志？

来自分类Dev

如何在Azure HDInsight上将Apache Spark作业提交到Hadoop YARN

来自分类Dev

如何在yarn客户端模式下在远程主节点上提交Spark作业？

来自分类Dev

Flink 1.3 在 YARN 上运行单个作业如何设置每个 TaskManager 的任务槽数

来自分类Dev

使用远程SparkContext在纱线上运行spark作业：Yarn应用程序已结束

来自分类Dev

在具有其他文件的YARN群集上运行Spark作业

来自分类Dev

在yarn-cluster模式下运行时如何使用REST调用获取Spark Streaming作业统计信息

来自分类Dev

如何为Hadoop的Map-reduce作业设置配置？

来自分类Dev

运行较大的YARN作业的主要限制是什么？如何增加它？

来自分类Dev

我如何在Yarn（Hadoop 2.2.0）中分发Reduce Job（多个Reduce作业）

来自分类Dev

在不使用 spark.yarn.maxAttempts 参数的情况下控制单个 Spark 作业中的尝试次数

来自分类Dev

如何配置pyspark作业

来自分类Dev

作业DSL-如何配置postBuildSteps以使Maven仅在构建成功时才能启动

来自分类Dev

如何配置Hive以使用Spark？

来自分类Dev

如何配置Hive以使用Spark？

来自分类Dev

为什么EMR上的Yarn不能将所有节点分配给正在运行的Spark作业？

来自分类Dev

在Yarn群集上运行的Spark作业java.io.FileNotFoundException：即使文件在主节点上退出，文件也不会退出

来自分类Dev

Hadoop：如何在不干扰所有正在进行的作业的情况下重新启动YARN？

来自分类Dev

FFMPEG | 如何编码视频以使其更快

来自分类Dev

FFMPEG | 如何编码视频以使其更快

来自分类Dev

如何改善选择查询以使其更快？

来自分类Dev

重复子设置可以使此过程更快

Related 相关文章

文章

热门标签

归档