如何在 Apache Spark Standalone Cluster 中设置文件路径?

迈克

我需要一些关于在 Spark 中定义包含大量文件的目录的路径的提示。我已经建立了一个独立集群,其中一台机器作为 Worker,另一台机器作为 Master,驱动程序是我的本地机器。我用python在本地机器上开发我的代码。我已将所有文件复制到 Master 和 Worker,两台机器上的路径相同(如:/data/test/)。我已经设置了一个 SparkSession,但现在我不知道如何在我的脚本中定义目录的路径。所以我的问题是如何说Spark它可以在上面的目录中找到两台机器上的数据?我的另一个问题是如何处理 .mal 等文件格式,我如何读取此类文件?感谢您的任何提示!

Md Shihab Uddin

当 Spark 作业提交给驱动程序(主)时,发生的事情很少

  1. 驱动程序创建一个执行计划。它创建多个阶段,每个阶段包含多个任务。
  2. 集群管理器根据提交作业时的参数分配资源并从工作线程启动执行程序。
  3. 任务被交给执行器执行,驱动程序监控每个任务的执行。sparkContext关闭或应用程序的范围完成时,资源被释放并终止执行器

提交 spark 作业的 driver 或 master 需要可访问的数据路径,因为它控制所有执行计划。驱动程序和集群管理器将负责在工作器中执行不同类型操作的所有事情。由于spark作业是在master中提交的,所以提供spark可以从master机器访问的数据路径就足够了。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在Apache Spark中拆分输入文件

来自分类Dev

Apache Spark: reading RDD from Spark Cluster

来自分类Dev

如何在Apache Spark中执行LabelEncoding或分类值

来自分类Dev

如何在Apache Spark SQL中执行更新

来自分类Dev

如何在Apache Spark中重新分区CassandraRDD

来自分类Dev

如何在Apache Spark中的MapReduce函数上重置Iterator

来自分类Dev

如何在Apache Spark作业中执行阻止IO?

来自分类Dev

如何在Apache Spark的RDD中传递血统

来自分类Dev

如何在Apache Spark中执行Sort JavaPairRDD

来自分类Dev

如何在Apache Spark的RDD中传递血统

来自分类Dev

如何在Apache Spark中添加多个列

来自分类Dev

如何在Apache Spark中执行简单的reduceByKey?

来自分类Dev

如何在 Apache Spark 中对 joinExpression 进行算术运算

来自分类Dev

如何在apache spark中解决以下问题

来自分类Dev

如何在 Apache Spark 中获取评估数据?

来自分类Dev

Spark Standalone 加载文件失败

来自分类Dev

如何在apache spark中关联文件中的数据字符串

来自分类Dev

如何为 Spark Standalone 的 master 指定自定义 conf 文件?

来自分类Dev

如何减少RDD在Apache Spark中的工作

来自分类Dev

如何使用SparkR在apache spark中写入csv文件?

来自分类Dev

如何使用apache spark在文件中写入日志

来自分类Dev

运行这个例子的第一步出错:TensorFlowOnSpark on a Spark Standalone cluster

来自分类Dev

如何在Java中的Apache Spark Streaming中为文件名模式定义文件过滤器?

来自分类Dev

在Apache Spark中写入文件

来自分类Dev

如何在Laravel中设置文件路径?

来自分类Dev

如何在(ana)conda环境中的Jupyter中安装Apache Toree for Spark Kernel?

来自分类Dev

如何在Apache Spark 1.0中构建大型分布式[稀疏]矩阵?

来自分类Dev

如何在Apache-Spark中连接主机和从机?(独立模式)

来自分类Dev

如何在Java中的Apache Spark中将DataFrame转换为Dataset?

Related 相关文章

  1. 1

    如何在Apache Spark中拆分输入文件

  2. 2

    Apache Spark: reading RDD from Spark Cluster

  3. 3

    如何在Apache Spark中执行LabelEncoding或分类值

  4. 4

    如何在Apache Spark SQL中执行更新

  5. 5

    如何在Apache Spark中重新分区CassandraRDD

  6. 6

    如何在Apache Spark中的MapReduce函数上重置Iterator

  7. 7

    如何在Apache Spark作业中执行阻止IO?

  8. 8

    如何在Apache Spark的RDD中传递血统

  9. 9

    如何在Apache Spark中执行Sort JavaPairRDD

  10. 10

    如何在Apache Spark的RDD中传递血统

  11. 11

    如何在Apache Spark中添加多个列

  12. 12

    如何在Apache Spark中执行简单的reduceByKey?

  13. 13

    如何在 Apache Spark 中对 joinExpression 进行算术运算

  14. 14

    如何在apache spark中解决以下问题

  15. 15

    如何在 Apache Spark 中获取评估数据?

  16. 16

    Spark Standalone 加载文件失败

  17. 17

    如何在apache spark中关联文件中的数据字符串

  18. 18

    如何为 Spark Standalone 的 master 指定自定义 conf 文件?

  19. 19

    如何减少RDD在Apache Spark中的工作

  20. 20

    如何使用SparkR在apache spark中写入csv文件?

  21. 21

    如何使用apache spark在文件中写入日志

  22. 22

    运行这个例子的第一步出错:TensorFlowOnSpark on a Spark Standalone cluster

  23. 23

    如何在Java中的Apache Spark Streaming中为文件名模式定义文件过滤器?

  24. 24

    在Apache Spark中写入文件

  25. 25

    如何在Laravel中设置文件路径?

  26. 26

    如何在(ana)conda环境中的Jupyter中安装Apache Toree for Spark Kernel?

  27. 27

    如何在Apache Spark 1.0中构建大型分布式[稀疏]矩阵?

  28. 28

    如何在Apache-Spark中连接主机和从机?(独立模式)

  29. 29

    如何在Java中的Apache Spark中将DataFrame转换为Dataset?

热门标签

归档