当前位置：首页 > news >正文

近期热点舆情事件/seo广州工作好吗

news 2025/8/15 0:18:48

近期热点舆情事件,seo广州工作好吗,wordpress 表单验证,网页设计与网站建设第02章在线测试文章目录概述安全下载运行例子在集群上启动学习参考路线编程指南API 文档部署指南其他文件扩展资源概述 Apache Spark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R 的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富…

文章目录

概述
安全
下载
运行例子
在集群上启动
学习参考路线
- 编程指南
- API 文档
- 部署指南
- 其他文件
- 扩展资源

概述

Apache Spark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R 的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括Spark SQL用于SQL和结构化数据的处理，MLlib机器学习，GraphX用于图形处理和Spark Streaming。

安全

Spark中的安全性默认为OFF。这可能意味着您很容易受到默认攻击。在下载和运行Spark之前，请参阅Spark Security。

下载

从项目网站获取spark，本文档适用于Spark版本2.4.3。Spark使用Hadoop的客户端库来实现HDFS和YARN。下载是针对少数流行的Hadoop版本预先打包的。还可以通过下载Hadoop免费二进制文件并使用任何Hadoop版本运行Spark 。Scala和Java用户可以使用Maven坐标在他们的项目中包含Spark，并且将来Python用户也可以从PyPI安装Spark。

也可以通过源码构建spark

spark 运行在Windows和类UNIX系统（例如Linux，Mac OS）的笔记本上运行也是很容易的。只需要安装java 配置PATH，或者JAVA_HOME指向Java安装的环境变量即可。

Spark运行在Java 8 +，Python 2.7 + / 3.4 +和R 3.1+上。对于Scala API，Spark 2.4.3使用Scala 2.12。您需要使用兼容的Scala版本（2.12.x）。

注意：spark2.2.0版本移除了Java 7, Python 2.6 and Hadoop 2.6.5 之前版本的支持。spark2.3.0版本移除了scala2.10的支持。spark2.4.1 废弃了Scala2.11 将在spark3.0中移除。

运行例子

Spark附带了几个示例程序。Scala，Java，Python和R示例都在 examples/src/main目录中。要运行其中一个Java或Scala示例程序，请 bin/run-example [params]在顶级Spark目录中使用。

/bin/run-example SparkPi 10

还可以通过Scala shell的修改版本以交互方式运行Spark。这是学习框架的好方法。

./bin/spark-shell --master local[2]

该–master选项指定分布式集群的主URL，或者local使用一个线程local[1]在本地运行，或者使用N个线程在本地运行。有关选项的完整列表，如下表

Master Url	含义
local	使用一个工作线程在本地运行Spark（即根本没有并行性）。
local[K]	使用K个工作线程在本地运行Spark（理想情况下，将其设置为计算机上的核心数）。
local[K,F]	使用K个工作线程和F maxFailures在本地运行Spark（有关此变量的说明，请参阅spark.task.maxFailures)
local[*]	使用与计算机上的逻辑核心一样多的工作线程在本地运行Spark。
local[*,F]	使用与计算机和F maxFailures上的逻辑核心一样多的工作线程在本地运行Spark
spark://HOST:PORT	连接到给定的Spark独立集群主服务器。端口必须是主服务器配置使用的端口，默认为7077。
spark://HOST1:PORT1,HOST2:PORT2	连接到给zookeeper集群，这个列表需要包含所有的zookeeper主机。默认端口7077
mesos://HOST:PORT	连接到给定的Mesos群集
yarn	连接到yarn
k8s://HOST:PORT	连接到k8s集群

Spark还提供了一个Python API。要在Python解释器中以交互方式运行Spark，请使用 bin/pyspark：

./bin/pyspark --master local[2]

Python中也提供了示例应用程序。例如，

./bin/spark-submit examples/src/main/python/pi.py 10

Spark还提供了R 的API

./bin/sparkR --master local[2]

对应的例子

./bin/spark-submit examples/src/main/r/dataframe.R

在集群上启动

spark 可以单独运行、通过集群管理器运行。目前有一下几种部署方式

Standalone Mode
Apache Mesos
Hadoop YARN
Kubernetes

学习参考路线

编程指南

spark 快速入门API
RDD 编程指南
Spark SQL，Datasets和DataFrames 比RDD更新的API
Structured Streaming
Spark Streaming
MLlib
GraphX

API 文档

Spark Scala API (Scaladoc)
Spark Java API (Javadoc)
Spark Python API (Sphinx)
Spark R API (Roxygen2)
Spark SQL, Built-in Functions (MkDocs)

部署指南

群集概述：在群集上运行时概念和组件的概述
提交应用程序

其他文件

配置
监控
调优指南
作业调度
安全性
硬件配置
与其他存储系统集成
7.1 云基础架构
7.2 OpenStack Swift
构建Spark
为Spark做贡献
第三方项目

扩展资源

Spark主页
Spark社区
StackOverflow tag apache-spark
邮件列表：在这里询问有关Spark的问题
AMP Camps：加州大学伯克利分校的一系列训练营，包括有关Spark，Spark Streaming，Mesos等的演讲和练习。视频，幻灯片和练习可在线免费获取。
代码示例：examplesSpark（Scala， Java， Python， R）的子文件夹中也提供了更多内容

查看全文

http://www.lbrq.cn/news/770995.html