全部标签

spark

小知识：Spark入门简介

SPARK Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark…
建站知识
- 0
- 0
小猿23年4月27日
小知识：Spark的广播变量和累加器使用方法代码示例

一、广播变量和累加器通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有限类型的共享变量，广播变量和累加器。 1.1 广播变量：广播变量允许程序员将一个只读的…
建站知识
- 2
- 0
小猿23年4月27日
小知识：Spark自定义累加器的使用实例详解

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用 Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。 ? 1 2 3 4 …
建站知识
- 1
- 0
小猿23年4月27日
小知识：Spark Graphx计算指定节点的N度关系节点源码

直接上代码： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67…
建站知识
- 3
- 0
小猿23年4月27日
小知识：使用docker快速搭建Spark集群的方法教程

前言 spark 是 berkeley 开发的分布式计算的框架，相对于 hadoop 来说，spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。下面来一起看看使用docker快速搭建spark集群的方法教程。适用人群正在使用spark的开发者正在学习docker或者spark的开发者准备工作安装docker (可选)下载java和spark with …
建站知识
- 2
- 0
小猿23年4月17日
小知识：使用docker快速搭建Spark集群的方法教程

前言 spark 是 berkeley 开发的分布式计算的框架，相对于 hadoop 来说，spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。下面来一起看看使用docker快速搭建spark集群的方法教程。适用人群正在使用spark的开发者正在学习docker或者spark的开发者准备工作安装docker (可选)下载java和spark with …
建站知识
- 12
- 0
小猿23年4月13日
小知识：Spark实现K-Means算法代码示例

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。 MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是KMean||得来的，迭代达到一定的次数，或者所有run都收敛时，算法就结束。用Spark实现K-Means算法，首先修改pom文件，引入机器…
建站知识
- 8
- 0
小猿23年4月12日
小知识：Spark三种属性配置方式详解

随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置：　　1、Spark properties：这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf对象或者Java 系统属性进行设置；　　2、环境变量(Environment variables)：这个可以分别对每台机器进行相应的设置，比如IP。这个可以在每台机器的$S…
建站知识
- 5
- 0
小猿23年4月12日
小知识：浅谈Spark RDD API中的Map和Reduce

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spar…
建站知识
- 9
- 0
小猿23年4月12日
小知识：Spark简介以及与Hadoop对比分析

1. spark 与 hadoop 比较 1.1 haoop 的缺点 1. 表达能力有限； 2. 磁盘io开销大； 3. 延迟高； 4. 任务之间的衔接涉及io开销； 5. 在前一个任务执行完之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务。 1.2 相较于hadoop mr的优点 1. spark的计算模式也属于mr，但不局限于map和reduce操作，它还提供了多种数据集操作类型，编程…
建站知识
- 1
- 0
小猿23年3月18日
小知识：linux环境不使用hadoop安装单机版spark的方法

大数据持续升温，不熟悉几个大数据组件，连装逼的口头禅都没有。最起码，你要会说个hadoop, hdfs, mapreduce, yarn, kafka, spark, zookeeper, neo4j吧，这些都是装逼的必备技能。关于spark的详细介绍, 网上一大堆，搜搜便是，下面，我们来说单机版的spark的安装和简要使用。 0. 安装jdk, 由于我的…
建站知识
- 6
- 0
小猿23年3月17日
小知识：OnZoom基于Apache Hudi的一体架构实践解析

1. 背景 onzoom是zoom新产品，是基于zoom meeting的一个独一无二的在线活动平台和市场。作为zoom统一通信平台的延伸，onzoom是一个综合性解决方案，为付费的zoom用户提供创建、主持和盈利的活动，如健身课、音乐会、站立表演或即兴表演，以及zoom会议平台上的音乐课程。在onzoom data platform中，source数据主要分为mysql db数据和log数据。…
建站知识
- 4
- 0
小猿23年3月10日
小知识：详解如何使用Spark和Scala分析Apache访问日志

安装首先需要安装好Java和Scala，然后下载Spark安装，确保PATH 和JAVA_HOME 已经设置，然后需要使用Scala的SBT 构建Spark如下： ? 1 $ sbt/sbt assembly 构建时间比较长。构建完成后，通过运行下面命令确证安装成功： ? 1 $ ./bin/spark-shell ? 1 2 3 scala> val textFile = sc.text…
建站知识
- 0
- 0
小猿23年3月6日
小知识：Apache Spark 2.0 在作业完成时却花费很长时间结束

现象大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然我们的 Spark Jobs 已经全部完成了，但是我们的程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成了，但是这个查询…
建站知识
- 0
- 0
小猿23年3月6日
小知识：「云原生」Apache Livy on k8s 讲解与实战操作

一、概述 Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RPC客户端库。Livy也简化了与Spark与应用服务的交互,这允许通过web/mobile与Spark的使用交互。官网：https://livy.incubator.apache.org/G…
建站知识
- 7
- 0
小猿23年3月4日