网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

spark RDD countApproxDistinct

浏览数：142 / 时间：2015年06月11日

package com.latrobe.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
 * Created by spark on 15-1-18.
 * countApproxDistinct : RDD的一个方法，作用是对RDD集合内容进行去重统计。
 * 该统计是一个大约的统计，参数relativeSD控制统计的精确度。
 * relativeSD越小，结果越准确
 */
object CountApproxDistinct {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("spark-demo").setMaster("local")
    val sc = new SparkContext(conf)

    /**
     * 构建一个集合，分成20个partition
     */
    val a = sc.parallelize(1 to 10000 , 20)
    //RDD a内容复制5遍，其中有50000个元素
    val b = a++a++a++a++a

    //结果是9760，不传参数，默认是0.05
    println(b.countApproxDistinct())
    //结果是9760
    println(b.countApproxDistinct(0.05))
    //8224
    println(b.countApproxDistinct(0.1))
    //10000
    println(b.countApproxDistinct(0.001))

  }
}

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

spark RDD countApproxDistinct

标签： Android iOS 移动互联终端开发

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

货车侧翻市民：不抢是傻子

货车侧翻市民：不抢是傻子

11岁女孩因抄作业被父亲发现吊打身亡

11岁女孩因抄作业被父亲发现吊打身亡

60后大叔成功求婚90后萝莉

60后大叔成功求婚90后萝莉

厦门旅游海边夜拍（2）

厦门旅游海边夜拍（2）

毛泽东和蒋介石的书法，你能区分不？

毛泽东和蒋介石的书法，你能区分不？

网红赵喵喵

网红赵喵喵

Chinajoy 部分精选

Chinajoy 部分精选

巴西男子头颈颠倒身残志坚

巴西男子头颈颠倒身残志坚

沈尹默书法

沈尹默书法

车模精选

车模精选

您可能还喜欢

更多

7080后儿时集体回忆插画

7080后儿时集体回忆插画

沈鹏书法欣赏

沈鹏书法欣赏

广州海陆空盛筵开场比基尼美女助阵

广州海陆空盛筵开场比基尼美女助阵

郭沫若书法

郭沫若书法

广西桂平石龙镇的5月22日车祸事故

广西桂平石龙镇的5月22日车祸事故

全球15万女性同秀旗袍挑战吉尼斯世界纪录

全球15万女性同秀旗袍挑战吉尼斯世界纪录

特斯拉 MODEL S 图集

特斯拉 MODEL S 图集

广州打工妈妈哭诉8岁女儿被强奸4次

广州打工妈妈哭诉8岁女儿被强奸4次

超模刘雯

超模刘雯

三亚商品街打架

三亚商品街打架