当前位置: 首页 > news >正文

校园网站建设情况统计表/外呼系统电销

校园网站建设情况统计表,外呼系统电销,本地建设网站,苏州高端网站建设设计公司哪家好1 介绍 在spark中,支持4种运行模式: local:开发时使用standalone:spark自带,如果一个集群时standalone的话,就需要在多台机器上同时部署spark环境。yarn:建议在生产上使用该模式,统…

1 介绍

在spark中,支持4种运行模式:

  • local:开发时使用
  • standalone:spark自带,如果一个集群时standalone的话,就需要在多台机器上同时部署spark环境。
  • yarn:建议在生产上使用该模式,统一使用yarn进行整个集群作业(MR,spark)的资源调度。
  • mesos

注意:

  • 不管使用什么模式,spark应用程序的代码是一模一样的
  • spark支持可插拔的集群管理模式
  • 对于yarn而言,spark application仅仅是一个客户端而已

1)yarn之client模式

  • driver运行在client端(提交spark作业的机器)
  • client会和请求到的container进行通信来完成作业的调度和执行,client是不能退出的
  • 日志信息会在控制台输出,便于我们测试
  • application master 负责资源的申请

2)yarn之cluster模式

  • driver运行在application master中。
  • client只要提交完作业之后就可以关掉,因为作业已经在yarn上运行了。
  • 日志在终端是看不见的,因为日志在driver上,只能通过yarn logs -applicationId application_id查看。
  • application master:资源申请与任务调度。

2 程序

1)修改pom.xml文件

<!-- 以下依赖不需要打进jar包 添加<scope> -->
<!-- scala -->
<dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>${scala.version}</version><scope>provided</scope>
</dependency><!-- sparksql -->
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>${spark.version}</version><scope>provided</scope>
</dependency><!-- 使用hiveContext需要的依赖-->
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_2.11</artifactId><version>${spark.version}</version><scope>provided</scope>
</dependency><!-- jdbc 操作依赖 使用thriftserver-->
<dependency><groupId>org.spark-project.hive</groupId><artifactId>hive-jdbc</artifactId><version>1.2.1.spark2</version><scope>provided</scope>
</dependency>
<!-- 添加plugin,将需要的依赖一起打包-->
<plugin><artifactId>maven-assembly-plugin</artifactId><configuration><archive><manifest><mainClass></mainClass></manifest></archive><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration>
</plugin>

2)SparkStatCleanJobYarn.scala

package logimport org.apache.spark.sql.{SaveMode, SparkSession}/*** spark清洗操作运行在yarn上*/
object SparkStatCleanJobYarn {def main(args: Array[String]): Unit = {if (args.length!=2) {println("usage: sparkstatcleanjobyarn <inputpath> <outputpath>")System.exit(1)}val Array(inputPath,outputPath)=argsval spark=SparkSession.builder().getOrCreate()val accessRDD=spark.sparkContext.textFile(inputPath)val accessDF = spark.createDataFrame(accessRDD.map(x => AccessConvertUtil.parseLog(x)),AccessConvertUtil.struct)accessDF.coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("day").save(outputPath)spark.stop()}
}

3)TopNStatJobYARN.scala,更改TopNStatJob.scala中的main函数

def main(args: Array[String]): Unit = {if (args.length != 2) {println("usage: topnstatjobyarn <inputpath> <day>")System.exit(1)}val Array(inputPath, day) = argsval spark = SparkSession.builder().config("spark.sql.sources.partitionColumnTypeInference.enabled", "false").getOrCreate()val accessDF = spark.read.format("parquet").load(inputPath)StatDAO.deleteData(day)// 最受欢迎的topN课程videoAccessTopNStat(spark, accessDF, day)// 按地市统计topN课程cityAccessTopNStat(spark, accessDF, day)// 按流量统计topN课程videoTrafficsTopNStat(spark, accessDF, day)spark.stop()}

3 提交运行

1)项目打包

mvn assembly:assembly

2)通过 spark-submit方式提交

export HADOOP_CONF_DIR=/Users/Mac/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/

// 提交清洗数据作业
spark-submit \
--class log.SparkStatCleanJobYarn \
--name SparkStatCleanJobYarn \
--master yarn \
--executor-memory 1G \
--num-executors 1 \
--files /Users/Mac/pro-use-file/ipDatabase.csv,/Users/Mac/pro-use-file/ipRegion.xlsx \
/Users/Mac/my-lib/sql-1.0-jar-with-dependencies.jar \
hdfs://localhost:8020/access.log hdfs://localhost:8020/spark-clean-out/

// 提交统计作业
spark-submit \
--class log.TopNStatJobYARN \
--name TopNStatJobYARN \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--num-executors 1 \
/Users/Mac/my-lib/sql-1.0-jar-with-dependencies.jar \
hdfs://localhost:8020/spark-clean-out/ 20161110

3)结果

  • 清洗数据作业可以在HDFS上的输出目录中找到输出文件。
  • 统计作业可以到数据库中查看输出数据。
http://www.lbrq.cn/news/1050229.html

相关文章:

  • 东营网站制作公司/免费网站安全软件下载
  • 天津专门做网站的公司/南通做网站推广的公司
  • 建设旅游网站目标客户分析/如何创建网站
  • 网站制作可能出现的问题/产品50个关键词
  • wordpress 公网贷款/优化大师免费下载安装
  • wordpress邮箱qq接入/企业seo网站营销推广
  • 云服务器可以做网站/seo零基础教学视频
  • 幻日网站建设/官网整站优化
  • 衢州网站推广/上海职业技能培训机构一览表
  • java 网站开发 教程/码迷seo
  • 我的世界大橙子做皮肤的网站/网络营销的新特点
  • 全景网站开发多少钱/做销售记住这十句口诀
  • 因网站开发需要/品牌策划包括哪几个方面
  • 贵阳市做网站的公司/百度怎么联系客服
  • 南通做网站推广的公司/seo也成搜索引擎优化
  • 为什么选择做游戏网站/站长之家
  • 代做毕设哪个网站靠谱/网络舆情分析报告范文
  • 网站制作预付款会计分录/免费顶级域名注册
  • 在线做ps是什么网站/上海优化seo排名
  • 容桂低价网站建设/百度搜索app下载
  • 白云区建网站/seo策略
  • wordpress 美食主题/百度搜索优化建议
  • 网站开发需要哪些工程师/百度广告投放价格表
  • 自己做黑彩网站/广告营销方式有哪几种
  • 用竹片做的网站/营销模式和营销策略
  • 电商网站管理系统模板下载/徐州做网站的公司
  • 做网站需要哪些东西和步骤/怎样有效的做网上宣传
  • 筑巢网站建设/全网营销是什么
  • 签约做网站模板/百度登录首页
  • 用pc做网站服务器为什么不如云主机/网站推广如何引流
  • 十、Linux Shell脚本:流程控制语句
  • Gin vs Beego vs Echo:三大主流 Go Web 框架深度对比
  • SpringSecurity过滤器链全解析
  • B.10.01.6-DDD领域驱动设计:从理论到落地的完整指南
  • 【排序算法】④堆排序
  • 原生Vim操作大全