从RDD获取随机行

javamonkey79

我试图从sparkSQL RDD中获取N个随机行,如下所示:

sqlContext.sql("SELECT col FROM tablename").sample(true, .7, 98712).show()

.7和98712只是我用来玩的垃圾号码。

我并没有真正看到随机结果,而是想知道如何从RDD中获取一些随机行?

罗汉·阿莱蒂

这似乎是因为您的第三个参数手动设置了一个种子,而不是为您选择的一个随机种子。从DataFrame实现中,这里有两种采样方法:

/**
 * Returns a new [[DataFrame]] by sampling a fraction of rows.
 ...
 */
def sample(withReplacement: Boolean, fraction: Double, seed: Long): DataFrame = {
  Sample(0.0, fraction, withReplacement, seed, logicalPlan)
}

/**
 * Returns a new [[DataFrame]] by sampling a fraction of rows, using a random seed.
 ...
 */
def sample(withReplacement: Boolean, fraction: Double): DataFrame = {
  sample(withReplacement, fraction, Utils.random.nextLong)
}

只需删除第三个参数即可返回随机行。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

单击从MySQL获取随机行

来自分类Dev

从Trove获取随机行(TObjectIntHashMap)?

来自分类Dev

从RDD中随机获取一个元素

来自分类Dev

随机获取或从表中获取行

来自分类Dev

如何从PySpark DataFrame中获取随机行?

来自分类Dev

在当天的sqlite中获取随机行

来自分类Dev

如何在mysql中获取随机行

来自分类Dev

如何根据列汇总 RDD 中的行并获取排序值

来自分类Dev

Java随机文件访问:获取行开始的字节偏移

来自分类Dev

从SQLite数据库Android SDK获取随机行

来自分类Dev

从文本文件中获取随机行

来自分类Dev

如何从JMeter中的文件中获取随机行

来自分类Dev

从mysql获取n个随机行并将其写入文件

来自分类Dev

在PHP中随机选择两行后获取变量

来自分类Dev

从SQLite数据库Android SDK获取随机行

来自分类Dev

如何获取列表中随机选择的行的索引(Python)

来自分类Dev

如何在JMeter中从文件中获取随机行

来自分类Dev

从文本文件中获取随机行

来自分类Dev

PHP和MYSQL在表中获取随机行

来自分类Dev

生成新表时从表中获取随机行

来自分类Dev

Laravel 如何使用 Postgres SQL 获取数据随机行?

来自分类Dev

Spark Core如何在不使用Rdd.max()的情况下获取RDD函数的最大n行

来自分类Dev

从同一RDD向键控RDD添加随机元素

来自分类Dev

如何在具有LIMIT和OFFSET的行范围之间获取随机行?

来自分类Dev

如何从数据库中获取随机行,以便在多次调用中不重复行

来自分类Dev

从字符串化 json 的 RDD 的行中获取键和值

来自分类Dev

获取随机按钮

来自分类Dev

获取随机颜色

来自分类Dev

如何随机获取属性