如何在YARN Spark作业中设置环境变量?

特雷伯·鲁德

我试图访问Accumulo 1.6Apache的星火使用的作业(Java编写的)AccumuloInputFormatnewAPIHadoopRDD为了做到这一点,我必须AccumuloInputFormat通过调用该setZooKeeperInstance方法来告知在哪里定位ZooKeeper 此方法采用一个ClientConfiguration对象,对象指定各种相关属性。

ClientConfiguration通过调用静态loadDefault方法来创建对象该方法应该在各个位置查找client.conf文件以从中加载其默认值。它应该看的地方之一是$ACCUMULO_CONF_DIR/client.conf

因此,我试图以ACCUMULO_CONF_DIR这样的方式设置环境变量,使其在Spark运行作业时可见(作为参考,我试图在yarn-cluster部署模式下运行)。我尚未找到成功完成此操作的方法。

到目前为止,我已经尝试过:

  • 调用setExecutorEnv("ACCUMULO_CONF_DIR", "/etc/accumulo/conf")SparkConf
  • 出口ACCUMULO_CONF_DIRspark-env.sh
  • 设置spark.executorEnv.ACCUMULO_CONF_DIRspark-defaults.conf

他们都没有工作。当我在调用之前打印环境时setZooKeeperInstanceACCUMULO_CONF_DIR不会出现。

如果相关,我将使用所有内容CDH5版本。

这是我要执行的操作的示例(为简洁起见,省略了导入和异常处理):

public class MySparkJob
{
    public static void main(String[] args)
    {
        SparkConf sparkConf = new SparkConf();
        sparkConf.setAppName("MySparkJob");
        sparkConf.setExecutorEnv("ACcUMULO_CONF_DIR", "/etc/accumulo/conf");
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        Job accumuloJob = Job.getInstance(sc.hadoopConfiguration());
        // Foreach loop to print environment, shows no ACCUMULO_CONF_DIR
        ClientConfiguration accumuloConfiguration = ClientConfiguration.loadDefault();
        AccumuloInputFormat.setZooKeeperInstance(accumuloJob, accumuloConfiguration);
        // Other calls to AccumuloInputFormat static functions to configure it properly.
        JavaPairRDD<Key, Value> accumuloRDD =
            sc.newAPIHadoopRDD(accumuloJob.getConfiguration(),
                               AccumuloInputFormat.class,
                               Key.class,
                               Value.class);
    }
}
特雷伯·鲁德

因此,我在写问题时(抱歉,寻求声誉的人)找到了答案。问题是CDH5使用Spark 1.0.0,并且我正在通过YARN运行作业。显然,YARN模式不关注执行程序环境,而是使用环境变量SPARK_YARN_USER_ENV来控制其环境。因此,确保SPARK_YARN_USER_ENV包含ACCUMULO_CONF_DIR=/etc/accumulo/conf工作,并使ACCUMULO_CONF_DIR问题在源示例中的指示位置在环境中可见。

独立模式和YARN模式在工作方式上的差异导致SPARK-1680,据报告在Spark 1.1.0中已修复。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在MPI作业中的计算节点上设置环境变量

来自分类Dev

如何在apache xampp中设置环境变量?

来自分类Dev

如何在C#中设置系统环境变量?

来自分类Dev

如何在Python中设置父shell的环境变量?

来自分类Dev

如何在capistrano部署中设置环境变量?

来自分类Dev

如何在Rhino中为runComment()设置环境变量?

来自分类Dev

如何在Makefile中设置环境变量以运行测试?

来自分类Dev

如何在Java中设置环境变量

来自分类Dev

如何在C#中永久设置环境变量

来自分类Dev

如何在Capistrano 3中设置环境变量?

来自分类Dev

如何在Python中设置和检索环境变量

来自分类Dev

如何在makefile中设置环境变量?

来自分类Dev

如何在JavaScript中设置环境变量

来自分类Dev

如何在Android中设置环境变量?

来自分类Dev

如何在Helm图表中设置Java环境变量?

来自分类Dev

如何在kubernetes的环境变量中设置mountPath的值?

来自分类Dev

如何在SpringBootTest中设置环境变量以进行登录?

来自分类Dev

如何在AWS :: ElasticBeanstalk :: Environment中设置环境变量?

来自分类Dev

如何在gitlab ci中设置组环境变量

来自分类Dev

如何在Systemd服务中设置环境变量

来自分类Dev

如何在Windows 10中设置系统环境变量?

来自分类Dev

如何在 .NET systemd 服务中设置环境变量?

来自分类Dev

如何在 docker run 中设置环境变量

来自分类Dev

在Apache Spark中。如何设置工作者/执行者的环境变量?

来自分类Dev

如何设置环境变量?

来自分类Dev

如何设置环境变量?

来自分类Dev

如何设置环境变量?

来自分类Dev

如何检查是否在cmake中设置了环境变量

来自分类Dev

如何设置环境变量供PHP在centos中访问?

Related 相关文章

热门标签

归档