大数据系列之并行计算引擎Spark介绍
大数据系列之并行计算引擎Spark介绍

Spark:ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spa

2022-04-05 17:13:33
Apache Spark中的决策树
Apache Spark中的决策树

ApacheSpark中的决策树决策树是在顺序决策问题进行分类,预测和促进决策的有效方法。决策树由两部分组成:决策(Desion)结果(Outcome)决策树包含三种类型的节点:根节点(Rootnode):包含所

2022-04-05 17:12:32
Spark中的核心概念RDD,我们了解多少?
Spark中的核心概念RDD,我们了解多少?

RDD全称叫做弹性分布式数据集(ResilientDistributedDatasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如:map,jo

2022-04-05 17:13:27
一个Spark缓存的使用示例
一个Spark缓存的使用示例

之前一直不是非常理解Spark的缓存应该如何使用.今天在使用的时候,为了提高性能,尝试使用了一下Cache,并收到了明显的效果。关于Cache的一些理论介绍,网上已经很多了.但是貌似也没有一个简单的例子说明。注:因为使用的是内部

2022-04-05 17:12:31
SparkStreaming与Kafka整合遇到的问题及解决方案
SparkStreaming与Kafka整合遇到的问题及解决方案

前言最近工作中是做日志分析的平台,采用了sparkstreaming+kafka,采用kafka主要是看中了它对大数据量处理的高性能,处理日志类应用再好不过了,采用了sparkstreaming的流处理框架主要是考虑到它本身是基于spa

2022-04-05 17:13:26
高科技也能“玩时尚”,思科协作重磅推出全新 Spark Room Kit 系列!
高科技也能“玩时尚”,思科协作重磅推出全新 Spark Room Kit 系列!

开篇三连问!·你觉得视频终端只能开视频会议,并一定要复杂的有线连接吗?·你觉得视频终端和智能化应用不靠边,终端外形跟时尚不沾边吗?·你觉得视频终端的***境界就是1080P高清,图像编码没有什么新技术了吗?答案全是YES?那你就

2022-04-05 17:13:55
Apache Spark 2.3重要特性介绍
Apache Spark 2.3重要特性介绍

为了继续实现Spark更快,更轻松,更智能的目标,Spark2.3在许多模块都做了重要的更新,比如StructuredStreaming引入了低延迟的连续处理(continuousprocessing);支持stream

2022-04-05 17:13:22
Spark Streaming场景应用- Spark Streaming计算模型及监控
Spark Streaming场景应用- Spark Streaming计算模型及监控

摘要SparkStreaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用SparkStreaming方面的技术架构,并着重讲解SparkStr

2022-04-05 17:13:51
Spark学习之RDD简单算子
Spark学习之RDD简单算子

collect返回RDD的所有元素scala> var input=sc.parallelize(Array(-1,0,1,2,2)) input: org.apache.spark.rdd.RDD[Int] = ParallelColle

2022-04-05 17:12:59
Spark核心技术原理透视一(Spark运行原理)
Spark核心技术原理透视一(Spark运行原理)

在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显

2022-04-05 17:13:04