400 028 6601

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

大数据处理之流式计算简介

  1. 简介

    成都创新互联专注为客户提供全方位的互联网综合服务,包含不限于网站建设、成都做网站、泽库网络推广、小程序开发、泽库网络营销、泽库企业策划、泽库品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;成都创新互联为所有大学生创业者提供泽库建站搭建服务,24小时服务热线:028-86922220,官方网址:www.cdcxhl.com

    Strom是一个开源的分布式流式计算系统,用来处理流式的数据,被称作为流式的hadoop,在电信行业,可以用来做大流量预警、终端营销、访问竞争对手产品从而做挽留等业务。本文将从storm在hadoop生态圈中所处位置、storm中术语、storm平台搭建、storm应用程序构建等详细介绍storm。

  2. Strom在大数据生态圈中的位置

大数据处理之流式计算简介

  1. 上图可以看出,Storm处于HDFS之上,但是并不是说Storm只能是处理HDFS中数据,反而Storm的数据来源一般是Log日志或者是Kafka中数据,当数据通过Strom处理完成之后,其流向可以是HDFS、HBase、关系型数据库等。

  2. Strom是一个计算系统,在大数据处理中,我们耳熟能详的计算系统是mapreduce,这张架构图看出storm和mapreduce是同级关系,而storm被称作是流式的hadoop。所以接下来将通过与mapreduce进行对比来介绍storm

3.Strom常用术语介绍

StromMapReduce(基于hadoop2.X)描述
NimbusApplicationMasterMapReduce中Resourcemanager负责任务分配、资源申请,同样的在Strom中Nimbus负责代码的分发,任务的分配和调度工作
SupervisorNodeManagerMapReducer中NodeManager负责资源的申请,工作进程启动和监控,Strom中Supervisor同样负责任务进程的启动和停止
Worker
YarnChild真正负责任务处理的进程
TopologyMapReduce驱动程序






4.大数据处理之流式计算简介
1.shuffle Grouping:随机分组,随机派发stream里面的tuple,保证每个bolt接收到的tuple数目相同
2.Fields Grouping:按照字段分组,相同的字段会分配到相同的bolt,不同的字段分配到不同的Bolt
3.ALL Grouping:广播,对每一个tuple,所有的bolt都会收到
4.Global Grouping:全局分组,这个tuple被分配到storm的一个bolt的一个task内,即id最低的那个
5.Non Grouping:不分组,目前效果和Global Groouping一样
6.Direct Grouping:直接分组,指定消息的接收者。


本文名称:大数据处理之流式计算简介
浏览路径:http://mbwzsj.com/article/jopgcs.html

其他资讯

让你的专属顾问为你服务