我需要一些关于在 Spark 中定义包含大量文件的目录的路径的提示。我已经建立了一个独立集群,其中一台机器作为 Worker,另一台机器作为 Master,驱动程序是我的本地机器。我用python在本地机器上开发我的代码。我已将所有文件复制到 Master 和 Worker,两台机器上的路径相同(如:/data/test/)。我已经设置了一个 SparkSession,但现在我不知道如何在我的脚本中定义目录的路径。所以我的问题是如何说Spark它可以在上面的目录中找到两台机器上的数据?我的另一个问题是如何处理 .mal 等文件格式,我如何读取此类文件?感谢您的任何提示!
当 Spark 作业提交给驱动程序(主)时,发生的事情很少
sparkContext
关闭或应用程序的范围完成时,资源被释放并终止执行器。提交 spark 作业的 driver 或 master 需要可访问的数据路径,因为它控制所有执行计划。驱动程序和集群管理器将负责在工作器中执行不同类型操作的所有事情。由于spark作业是在master中提交的,所以提供spark可以从master机器访问的数据路径就足够了。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句