如何在 Apache Spark Standalone Cluster 中设置文件路径？

debugcn 发表于 Dev

迈克

我需要一些关于在 Spark 中定义包含大量文件的目录的路径的提示。我已经建立了一个独立集群，其中一台机器作为 Worker，另一台机器作为 Master，驱动程序是我的本地机器。我用python在本地机器上开发我的代码。我已将所有文件复制到 Master 和 Worker，两台机器上的路径相同（如：/data/test/）。我已经设置了一个 SparkSession，但现在我不知道如何在我的脚本中定义目录的路径。所以我的问题是如何说Spark它可以在上面的目录中找到两台机器上的数据？我的另一个问题是如何处理 .mal 等文件格式，我如何读取此类文件？感谢您的任何提示！

Md Shihab Uddin

当 Spark 作业提交给驱动程序（主）时，发生的事情很少

驱动程序创建一个执行计划。它创建多个阶段，每个阶段包含多个任务。
集群管理器根据提交作业时的参数分配资源并从工作线程启动执行程序。
任务被交给执行器执行，驱动程序监控每个任务的执行。当sparkContext关闭或应用程序的范围完成时，资源被释放并终止执行器。

提交 spark 作业的 driver 或 master 需要可访问的数据路径，因为它控制所有执行计划。驱动程序和集群管理器将负责在工作器中执行不同类型操作的所有事情。由于spark作业是在master中提交的，所以提供spark可以从master机器访问的数据路径就足够了。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-23

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何在 Apache Spark Standalone Cluster 中设置文件路径？

如何在 Apache Spark Standalone Cluster 中设置文件路径？

如何在Apache Spark中拆分输入文件

Apache Spark: reading RDD from Spark Cluster

如何在Apache Spark中执行LabelEncoding或分类值

如何在Apache Spark SQL中执行更新

如何在Apache Spark中重新分区CassandraRDD

如何在Apache Spark中的MapReduce函数上重置Iterator

如何在Apache Spark作业中执行阻止IO？

如何在Apache Spark的RDD中传递血统

如何在Apache Spark中执行Sort JavaPairRDD

如何在Apache Spark的RDD中传递血统

如何在Apache Spark中添加多个列

如何在Apache Spark中执行简单的reduceByKey？

如何在 Apache Spark 中对 joinExpression 进行算术运算

如何在apache spark中解决以下问题

如何在 Apache Spark 中获取评估数据？

Spark Standalone 加载文件失败

如何在apache spark中关联文件中的数据字符串

如何为 Spark Standalone 的 master 指定自定义 conf 文件？

如何减少RDD在Apache Spark中的工作

如何使用SparkR在apache spark中写入csv文件？

如何使用apache spark在文件中写入日志

运行这个例子的第一步出错：TensorFlowOnSpark on a Spark Standalone cluster

如何在Java中的Apache Spark Streaming中为文件名模式定义文件过滤器？

在Apache Spark中写入文件

如何在Laravel中设置文件路径？

如何在（ana）conda环境中的Jupyter中安装Apache Toree for Spark Kernel？

如何在Apache Spark 1.0中构建大型分布式[稀疏]矩阵？

如何在Apache-Spark中连接主机和从机？（独立模式）

如何在Java中的Apache Spark中将DataFrame转换为Dataset？