Spark数据集-内部联接问题

尤汉·利雅纳奇(Yohan Liyanage)

我正在使用Spark 2.0.0,并且有两个如下的数据集(Dataset [Row])。

数据集“ appUsage”:

+----------+-------------------+----------+
|DATE      |APP_ID             |TIMES_USED|
+----------+-------------------+----------+
|2016-08-03|06xgKq10eeq0REK4eAc|null      |
|2016-08-03|ssads2wsdsf        |null      |
|2016-08-03|testApp            |null      |
|2016-08-03|3222aClie-971837083|5         |
|2016-08-03|V2aadingTLV02      |null      |
|2016-08-03|OurRating-985443645|5         |
|2016-08-03|Trdssktin-743439164|null      |
|2016-08-03|myaa1-app          |null      |
|2016-08-03|123123123-013663450|null      |
+----------+-------------------+----------+

数据集“ appDev”

+-------------------+------------------------------------+
|APP_ID             |DEVELOPER_ID                        |
+-------------------+------------------------------------+
|OurRating-985443645|5fff25c7-6a70-4d54-ad04-197be4b9a6a9|
|Xa11d0-560090096095|5fff25c7-6a70-4d54-ad04-197be4b9a6a9|
+-------------------+------------------------------------+

当我使用以下代码进行左连接时,所有操作均按预期进行。

val result = appUsage.join(appDev, Seq("APP_ID"), "left")

输出为:

+-------------------+----------+----------+------------------------------------+
|APP_ID             |DATE      |TIMES_USED|DEVELOPER_ID                        |
+-------------------+----------+----------+------------------------------------+
|06xgKq10eeq0REK4eAc|2016-08-03|null      |null                                |
|ssads2wsdsf        |2016-08-03|null      |null                                |
|testApp            |2016-08-03|null      |null                                |
|3222aClie-971837083|2016-08-03|5         |null                                |
|V2aadingTLV02      |2016-08-03|null      |null                                |
|OurRating-985443645|2016-08-03|5         |5fff25c7-6a70-4d54-ad04-197be4b9a6a9|
|Trdssktin-743439164|2016-08-03|null      |null                                |
|myaa1-app          |2016-08-03|null      |null                                |
|123123123-013663450|2016-08-03|null      |null                                |
+-------------------+----------+----------+------------------------------------+

但是我想进行内部联接,以便只有两个数据集中都存在的行才成为结果集的一部分。但是,当我使用以下代码执行此操作时,输出为空。

val result = appUsage.join(appDev, Seq("APP_ID"), "inner")

我想念什么吗?

班贾拉

试试这个:

val result = appUsage.join(appDev, "APP_ID")

我试过Databrics cloudSpark 2.0.0,它工作正常。

请参考这个

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在 Scala 中聚合 Spark 数据集的问题

来自分类Dev

Apache Spark流-用于联接的缓存数据集

来自分类Dev

Apache Spark流-用于联接的缓存数据集

来自分类Dev

在React中使用axios从内部联接表中获取数据时出现问题

来自分类Dev

Django内部联接查询集

来自分类Dev

SQLite内部联接问题

来自分类Dev

内部联接问题

来自分类Dev

在Spark结构化流中将数据内部联接到左联接的DataFrame时丢失条目

来自分类Dev

Spark Dataframe内部联接,无重复匹配

来自分类Dev

使用内部联接的大表的 Spark For 循环

来自分类Dev

SQL内部联接性能问题

来自分类Dev

MYSQL-内部联接问题

来自分类Dev

在Apache Spark中使用联接时,数据集大小的组织是否重要?

来自分类Dev

通过使用Scala Spark中的第一列联接两个数据集

来自分类Dev

从多个内部联接获取数据

来自分类Dev

数据库表内部联接

来自分类Dev

数据集中的多个表上的内部联接

来自分类Dev

使用内部联接创建数据服务

来自分类Dev

根据条件联接数据集

来自分类Dev

在Spark和Scala中创建数据集时出现问题

来自分类Dev

Laravel 5.1内部联接查询中的问题

来自分类Dev

合并内部联接时遇到问题

来自分类Dev

内部联接MySQL查询出现问题

来自分类Dev

嵌套内部联接有问题

来自分类Dev

内部联接返回冗余数据而不是预期数据

来自分类Dev

对象中的doctrine2内部联接数据

来自分类Dev

T sql通过使用内部联接选择数据透视

来自分类Dev

具有日期范围列的内部联接熊猫数据框

来自分类Dev

数据存在时,内部联接返回空集