当前位置: 首页 > news >正文

二维码图片seo精华网站

二维码图片,seo精华网站,网站主关键词,做全套的成都网站在上篇笔记的基础上,本文介绍Spark客户端的基本配置及Spark任务提交方式。 1. Spark客户端及基本配置 从Spark官网下载的pre-built包中集成了Spark客户端,如与hadoop ver1.x兼容的Spark客户端位于spark-1.3.1-bin-hadoop1/bin目录下。 Spark客户端通常部…

在上篇笔记的基础上,本文介绍Spark客户端的基本配置及Spark任务提交方式。

1. Spark客户端及基本配置
从Spark官网下载的pre-built包中集成了Spark客户端,如与hadoop ver1.x兼容的Spark客户端位于spark-1.3.1-bin-hadoop1/bin目录下。
Spark客户端通常部署在要提交计算任务的机器上,用来向集群提交应用。特别地,客户端自带的bin/pyspark脚本支持以交互模式向集群提交应用,在交互模式下测试spark python api的执行结果是很方便的
Spark客户端的配置文件通常位于conf目录下,典型的配置文件列表如下所列:

spark-defaults.conf  // 设置spark master地址、每个executor进程的内存、占用核数,等等
spark-env.sh         // spark相关的各种环境变量
log4j.properties.template    // 设置driver向console输出的日志的等级及格式
fairscheduler.xml.template   // 设置调度方式
metrics.properties.template  // 设置spark内部metrics系统,一般无需改动
slaves               // 设置spark集群中的slave节点(即worker节点),无需改动
hadoop-default.xml   // hadoop配置,主要是hdfs的配置
hadoop-site.xml      // hadoop集群的访问配置(如master地址)
注意: 由于spark的输入文件通常来自HDFS,故除spark本身的配置文件外,通常还需在conf目录下包含hadoop相关的配置文件,如上述示例中的hadoop-default.xml和hadoop-site.xml。
在这些配置文件中,最重要的是spark-defaults.conf,典型配置模板如下所示。
# Default system properties included when running spark-submit.
# This is useful for setting default environmental settings.# Example:
# spark.master                     spark://master:7077
# spark.eventLog.enabled           true
# spark.eventLog.dir               hdfs://namenode:8021/directory
# spark.serializer                 org.apache.spark.serializer.KryoSerializer
# spark.driver.memory              5g
# spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
从模板可见,必须的配置项是spark.master的地址。此外还有一些影响Spark运行性能的配置项,限于篇幅,这里不再赘述。建议仔细阅读 Spark Configuration文档。

2. 如何向spark集群提交应用
Spark客户端自带的bin/spark-submit脚本可以用来向集群提交应用,如下面的示例命令通过Spark客户端提交了一个基于ALS算法的矩阵分解模型用来实现电影个性化推荐:

spark-1.3.0.5-bin/bin/spark-submit movie_als_rec.py
如果应用程序依赖了其它库,则需要将应用程序及其依赖整体打包提交到spark集群。具体而言,若提交java应用,则可借助sbt或Maven的相关插件打成jar文件再提交(无需包含spark或hadoop相关的依赖,它们由cluster manager提供);若提交Python应用,则可先将应用脚本及其依赖打包成.zip或.egg包,然后借助—py-files参数将zip或egg文件传给spark-submit脚本。
spark-submit支持的参数列表可从官网文档了解,也可打开spark-submit脚本查看,脚本中解析参数的代码片段如下:

这里对deploy-mode参数做特别说明:
1) deploy mode分为client和cluster两种。
2) 若待提交的应用部署的节点与集群worker节点在物理网络上很近,则以client模式提交应用较为合理。在client模式下,driver由spark应用脚本所在机器节点的spark-submit直接调起,driver针对应用的输入/输出会打印至该节点的终端控制台。
3) 若spark应用脚本部署节点与spark集群worker节点物理网络距离较远,则以cluster提交可以减少driver和executors间的网络延时(因为正常情况下,应用分解出的若干tasks均会由driver负责调度executor来执行,每次调度均有网络开销)。
4) 目前以standalone或mesos方式部署的spark集群不支持cluster模式,基于Python的spark应用提交也不支持cluster模式。

未完待续,下篇笔记将会介绍Spark集群对应用的调度方式。

【参考资料】
1. Spark Configuration

==================== EOF ===================

http://www.lbrq.cn/news/2440531.html

相关文章:

  • 做网站多少钱特惠西宁君博s百度广告太多
  • 杭州论坛网seo是什么意思 seo是什么职位
  • 禅城区网站建设公司营销组合策略
  • 做网站多少钱_西宁君博优选长沙官网seo收费标准
  • 网站内页权重佛山网站建设维护
  • 网站首页的重要性免费网站代理访问
  • 网站建设项目技术seo排名优化点击软件有哪些
  • 做图标得英文网站外贸推广代理
  • 如何用front怕个做网站搜索引擎营销特点
  • 网站开发的运行可行性seo网站优化培训怎么样
  • 没有英文网站怎么做外贸厦门seo网络优化公司
  • 做公司网站的公青岛网站设计公司哪家好
  • 西安建设工程信息网站青岛网站建设制作推广
  • 服装批发做哪个网站好呢云南百度推广开户
  • 做内网网站教程佛山seo培训
  • 旅游网站建设外现状淘宝seo是什么意思
  • 全渠道营销管理平台网站快速优化排名app
  • 邢台提供网站建设公司电话郑州seo推广优化
  • 域名可以免费注册码福州seo网络推广
  • 东莞做网站的seo外链在线工具
  • 南宁网站忧化南京百度seo公司
  • 做企业网站需要的人怎么创建网站平台
  • 免费项目网站美国最新新闻头条
  • 韶关做网站正规手游代理平台有哪些
  • 易语言怎么把网站音乐做进去在线搭建网站
  • 新闻最近的大事10件seo网站推广seo
  • 太原网站建设dweb简述seo的概念
  • 医院网站管理系统苏州seo快速优化
  • 电子产品的网站建设网络营销项目
  • 省建设厅网站aso排名优化知识
  • 技术赋能多元探索:我的技术成长与行业洞察
  • 回调后门 函数
  • 中小企业安全落地:低成本漏洞管理与攻击防御方案
  • 算法牢笼与思想飞地:在人工智能时代守卫灵魂的疆域
  • 内积(Inner Product)和余弦相似度区别
  • Linux -- 进程【下】