如何设置配置以使Spark / Yarn作业更快?

新手

我是Spark的新手。我一直在阅读有关Spark配置和要设置的不同属性的信息,以便我们可以优化作业。但是我不确定如何确定应该设置什么?

例如,我创建了一个类型为r3.8x Large的集群(1个主节点和10个从节点)

我该如何设定:

spark.executor.memory           
spark.driver.memory             
spark.sql.shuffle.partitions
spark.default.parallelism
spark.driver.cores              
spark.executor.cores             
spark.memory.fraction            
spark.executor.instances

还是应该保留默认值?但是保留默认设置会使我的工作非常缓慢。我的工作有3个小组bas和3个广播的地图。

谢谢

巴韦什

为了调整您的应用程序,您需要了解几件事

1)您需要监视您的应用程序,无论您的群集是否被充分利用,您创建的应用程序使用了多少资源

可以使用各种工具进行监控。Ganglia在Ganglia中,您可以找到CPU,内存和网络使用情况。

2)根据对CPU和内存使用情况的观察,您可以更好地了解应用程序需要进行哪种调整

形成你的火花点

在spark-defaults.conf中

您可以指定所需的序列化类型,即使您可以更改垃圾回收算法,您的应用程序也需要多少驱动程序内存和执行程序内存。

以下是一些示例,您可以根据自己的要求调整此参数

spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.driver.memory              5g
spark.executor.memory            3g
spark.executor.extraJavaOptions  -XX:MaxPermSize=2G -XX:+UseG1GC
spark.driver.extraJavaOptions    -XX:MaxPermSize=6G -XX:+UseG1GC

有关更多详细信息,请参见http://spark.apache.org/docs/latest/tuning.html

希望这可以帮助!!

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在YARN Spark作业中设置环境变量?

来自分类Dev

在 Yarn 中调整 Spark 作业

来自分类Dev

在Java代码中使用Client将Spark Streaming作业提交给YARN时无法设置配置

来自分类Dev

YARN上的Spark:作业提交v / s是否接受?

来自分类Dev

在YARN中为CLI提交的作业设置applicationTags属性

来自分类Dev

Yarn 和 spark shell 作业上的 Spark 作业的资源管理

来自分类Dev

如何将Flink作业提交到远程YARN群集?

来自分类Dev

如何从 Dask-Yarn 作业中捕获工人的日志?

来自分类Dev

如何在Azure HDInsight上将Apache Spark作业提交到Hadoop YARN

来自分类Dev

如何在yarn客户端模式下在远程主节点上提交Spark作业?

来自分类Dev

Flink 1.3 在 YARN 上运行单个作业如何设置每个 TaskManager 的任务槽数

来自分类Dev

使用远程SparkContext在纱线上运行spark作业:Yarn应用程序已结束

来自分类Dev

在具有其他文件的YARN群集上运行Spark作业

来自分类Dev

在yarn-cluster模式下运行时如何使用REST调用获取Spark Streaming作业统计信息

来自分类Dev

如何为Hadoop的Map-reduce作业设置配置?

来自分类Dev

运行较大的YARN作业的主要限制是什么?如何增加它?

来自分类Dev

我如何在Yarn(Hadoop 2.2.0)中分发Reduce Job(多个Reduce作业)

来自分类Dev

在不使用 spark.yarn.maxAttempts 参数的情况下控制单个 Spark 作业中的尝试次数

来自分类Dev

如何配置pyspark作业

来自分类Dev

作业DSL-如何配置postBuildSteps以使Maven仅在构建成功时才能启动

来自分类Dev

如何配置Hive以使用Spark?

来自分类Dev

如何配置Hive以使用Spark?

来自分类Dev

为什么EMR上的Yarn不能将所有节点分配给正在运行的Spark作业?

来自分类Dev

在Yarn群集上运行的Spark作业java.io.FileNotFoundException:即使文件在主节点上退出,文件也不会退出

来自分类Dev

Hadoop:如何在不干扰所有正在进行的作业的情况下重新启动YARN?

来自分类Dev

FFMPEG | 如何编码视频以使其更快

来自分类Dev

FFMPEG | 如何编码视频以使其更快

来自分类Dev

如何改善选择查询以使其更快?

来自分类Dev

重复子设置可以使此过程更快

Related 相关文章

  1. 1

    如何在YARN Spark作业中设置环境变量?

  2. 2

    在 Yarn 中调整 Spark 作业

  3. 3

    在Java代码中使用Client将Spark Streaming作业提交给YARN时无法设置配置

  4. 4

    YARN上的Spark:作业提交v / s是否接受?

  5. 5

    在YARN中为CLI提交的作业设置applicationTags属性

  6. 6

    Yarn 和 spark shell 作业上的 Spark 作业的资源管理

  7. 7

    如何将Flink作业提交到远程YARN群集?

  8. 8

    如何从 Dask-Yarn 作业中捕获工人的日志?

  9. 9

    如何在Azure HDInsight上将Apache Spark作业提交到Hadoop YARN

  10. 10

    如何在yarn客户端模式下在远程主节点上提交Spark作业?

  11. 11

    Flink 1.3 在 YARN 上运行单个作业如何设置每个 TaskManager 的任务槽数

  12. 12

    使用远程SparkContext在纱线上运行spark作业:Yarn应用程序已结束

  13. 13

    在具有其他文件的YARN群集上运行Spark作业

  14. 14

    在yarn-cluster模式下运行时如何使用REST调用获取Spark Streaming作业统计信息

  15. 15

    如何为Hadoop的Map-reduce作业设置配置?

  16. 16

    运行较大的YARN作业的主要限制是什么?如何增加它?

  17. 17

    我如何在Yarn(Hadoop 2.2.0)中分发Reduce Job(多个Reduce作业)

  18. 18

    在不使用 spark.yarn.maxAttempts 参数的情况下控制单个 Spark 作业中的尝试次数

  19. 19

    如何配置pyspark作业

  20. 20

    作业DSL-如何配置postBuildSteps以使Maven仅在构建成功时才能启动

  21. 21

    如何配置Hive以使用Spark?

  22. 22

    如何配置Hive以使用Spark?

  23. 23

    为什么EMR上的Yarn不能将所有节点分配给正在运行的Spark作业?

  24. 24

    在Yarn群集上运行的Spark作业java.io.FileNotFoundException:即使文件在主节点上退出,文件也不会退出

  25. 25

    Hadoop:如何在不干扰所有正在进行的作业的情况下重新启动YARN?

  26. 26

    FFMPEG | 如何编码视频以使其更快

  27. 27

    FFMPEG | 如何编码视频以使其更快

  28. 28

    如何改善选择查询以使其更快?

  29. 29

    重复子设置可以使此过程更快

热门标签

归档