当前位置: 首页 > news >正文

基于java开发网站开发/5188关键词平台

基于java开发网站开发,5188关键词平台,网站开发实习报告,网站建设首页模板在编写storm代码来进行实时分析的时候遇到了一些问题,有些的确令人比较头痛,现在稍微做一下整理。数据流向(本地-Spout-Bolt-Hdfs) 1数据的输入输出文件的路径选择 因为在此项目中数据是放在本地磁盘的,所有就有两种放…

在编写storm代码来进行实时分析的时候遇到了一些问题,有些的确令人比较头痛,现在稍微做一下整理。数据流向(本地-Spout-Bolt-Hdfs)

1数据的输入输出文件的路径选择

因为在此项目中数据是放在本地磁盘的,所有就有两种放数据的途径,一种是直接通过spout接受本地数据发送到任务中,另一种是先把文件数目进行整理(缩小)放到hdfs系统,让后通过spout读取hdfs里面的数据,后来实际表明前一种更加适合(后一种受到了mapreduce的影响),现在提一下后一种遇到的问题,后一种的话是spout发射完一个文件的数据以后一定要删除掉(不然会一直发射),但是这样子就没有一个有效的方式来判断是否已经发送完成,在这里花了很多时间,常常导致数据还没有发送完成就删掉了。

并且在复制文件到hdfs的过程中spout会一直从不断增加的数据中获取(后果可想而知)。

文件输出路径同样遇到了上诉的问题,看来收到mapreduce的模式影响很大,一种是直接输出到本地磁盘,另一种是输出到Hdfs里面,这里选择后者就更加合适了,因为如果是在集群下运行程序的话,那么spout和bolt任务是随机分配的,并无法指定那个节点来运行写文件的bolt,这样子很可能后续代码需要获取的是主节点的数据,结果数据却被写到了另一个从节点,还要判断那个节点的数据是否已经写完,文件传输过程,而hdfs就不一样了,文件只要写到hdfs以后从任何一个节点都可以读取上面的数据。另外在判断文件是否已经传输完毕使用了判断文件大小的方法,以半秒钟为间隔获取文件的大小,当相邻文件的大小不在变化则表明数据已经被处理完毕,可以进行接下来的运算。

2bolt输出数据到hdfs里面遇到的问题

这个问题也困扰了很久,因为bolt是一行行输出的数据,如果写入到hdfs里面的话就要不断的新建文件-写入文件-关闭写入流,这里就会遇到一个问题,每次新建文件都会导致之前的数据被删掉,然后我goole了一下bolt写数据到hdfs的方法,那里也没有提供往数据的末尾继续添加的append方法,但是却意外的发现了官方提供的一个第三方jar包storm-hdfs-0.9.6(下载的时候一定要和storm版本号一致,这个方法是0.9.3以后出现的),他专门提供了往hdfs写文件的方法,并提供了丰富的参数来供用户选择(包括当文件满足多大以后新建一个文件继续写入,已经多长时间写入一次数据,每一行以什么为数据的分割符,输出文件的格式等)。因为我的需求是这一次运算要把上一次运算的结果文件都删掉,所以我以10m为文件的最大限度,下一次运算时候只保留上一次文件的最小的数据(必须保留上一次运行最后新建的文件,不然会报错)。

3本地调试可以但是放到集群就报找不到类的问题,这个问题百分十九十九都是缺少jar包导致,要保证每个子节点对应的路径下面都有工程所需要的jar包。随意maven是个很好的选择。

转载于:https://www.cnblogs.com/lisi2016/p/6863898.html

http://www.lbrq.cn/news/1335781.html

相关文章:

  • 北京米兰广告设计有限公司/网站推广与优化平台
  • 做b2b网站管理系统/外包公司怎么赚钱
  • 用dw做网站时怎么添加弹窗/今日全国疫情一览表
  • ppt设计公司/短视频排名seo
  • 自己怎么做淘宝客网站吗/sem与seo
  • python做网站设计/域名注册查询阿里云
  • wordpress 钩子大全/北京seo技术交流
  • 个人博客搭建wordpress/网络优化seo
  • 做5g网站/中山seo推广优化
  • 买房子最好的网站/bt磁力搜索
  • 重庆seo小z博客/西安seo网络推广
  • 网站里的图片切换怎么做/长沙做网站推广公司咨询
  • 公众号推送怎么制作/宁波网站关键词优化排名
  • 2015年做啥网站致富/湖北网站seo
  • 江宁住房和城乡建设局网站/网站注册搜索引擎的目的是
  • 网站开发招聘名称/优化关键词排名推广
  • 怎么接网站开发外包/电商代运营一般收多少服务费
  • 做网站用需要几个软件/营销策划是做什么
  • 温州网站建设优化公司/农大南路网络营销推广优化
  • wordpress主题框架开发/seo会被取代吗
  • 如何申请自己的个人网站/深圳seo推广公司
  • 深圳龙华鸿宇大厦网站建设/建网站的软件有哪些
  • 企业网站产品分类多怎么做seo/近期网络舆情事件热点分析
  • 深圳网站建设 手机网站建设/今日头条极速版官网
  • 有哪些网站做明星周边/百度指数是怎么计算的
  • wordpress 手机不显示图片/百度搜索怎么优化
  • 十堰优化网站排名公司/网络销售平台有哪些
  • 哪些公司可以做网站/百度关键词排名怎么靠前
  • 睢县网站制作公司/网络推广是做什么工作的
  • 个人免费建站的网站/怎样才能注册自己的网站
  • 服务端配置 CORS解决跨域问题的原理
  • 【CSS3】录音中。。。
  • 【SpringBoot】持久层 sql 注入问题
  • Day 9-2: Transformer翻译实例演示 - 翻译的基础设施
  • 基于python高校固定资产管理系统
  • 深入解析微服务分布式事务的原理与优化实践