当前位置:首页 > 行业知识 > 综合

技术栈是什么

关注:215 发布时间:2021-08-30 16:00:39

相信很多学java的同学都有转大数据或者学大数据的想法,但是在网上看到大数据的技术栈,就看了一下,比如hadoop,hdfs,mapreduce,hive,卡夫卡,zookeeper,hbase,sqoop,flume,spark,storm,flink等等。

童鞋可能突然慌了,想学java的有ssm,跳羚,春云,mysql等。台词很清楚,所以学起来相对简单,但是大数据就不一样了。技术栈太多,刚开始可能会被吓到外面。,博主们把大数据技术栈和java技术栈进行对比,告诉你这些大数据技术栈是为了什么。

架构图

在我们开始解释之前,让我们看一下下图:

数据连接器模块

我们按照图的顺序逐一介绍。第一,sqoop(发音:skup)是一个开源工具,主要用于hadoop(hive)和传统数据库(mysql、postgresql、……)之间的数据传输,可以从一个关系型数据库(比如mysql、oracle、postgres等)导入数据。)到hadoop hdfs

如果非要比较功能的话,很像阿里的canal组件,用来同步数据。

水道

水槽是一个高度可用、可靠和分布式的系统,用于收集、聚合和传输cloudera提供的大量日志。水槽支持定制日志系统中的各种数据发送器,用于收集数据;同时,flume提供了简单处理数据和到达各种数据接收者(可定制)的能力。

水槽的功能类似于elk(日志实时检索系统)中的logstash,用于传输和处理日志数据。

卡夫卡

卡夫卡是一个高吞吐量的分布式发布订阅消息系统,可以处理网站中消费者的所有动作流数据。

说白了就是一个mq消息传递系统,和java常用的rabbitmq、rocketmq一样,只是侧重点不同。卡夫卡专注于高吞吐量,能够处理海量数据。

分布式文件系统

hadoop分布式文件系统(hdfs)是指设计为在商用硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多共同之处。但同时也明显不同于其他分布式文件系统。hdfs是一个高容错系统,适合部署在廉价的机器上。hdfs可以提供高吞吐量的数据访问,非常适合大规模数据集。

像java这样的项目,不可避免的会涉及到文件上传和。此时,您要么自己构建分布式文件系统,要么使用第三方。一般来说,gfs、hdfs、lustre、ceph、gridfs、mogilefs、tfs、fastdfs等。如果用第三方,一般会用七牛云,腾讯云oss对象存储,阿里巴巴云oss对象存储。

储备

hive是基于hadoop的数据仓库工具,用于数据的提取、转换和加载。它是一种能够存储、查询和分析hadoop中存储的大规模数据的机制。hive数据仓库工具可以将结构化数据文件映射成数据库表,提供sql查询功能,将sql语句转换成mapreduce任务执行。

与java相比,有点类似于mysql(不太准确),它不仅可以存储表结构数据,还可以通过sql查询这些数据,但不能修改,只能离线操作。

数据库

hadoop数据库是一个高度可靠、高性能、面向列和可扩展的分布式存储系统。通过使用hbase技术,可以在廉价的pc服务器上构建大规模的结构化存储集群。

糖化血红蛋白实际上是一种nosql,类似于java中常用的redis,只是它们的底层实现不同。

动物园管理员

zookeeper是一个分布式、开源的分布式应用协调服务,是google chubby的开源实现,是hadoop和hbase的重要组成部分。它是为分布式应用提供一致服务的软件,功能包括配置维护、域名服务、分布式同步、群组服务等。

zookeer在java里也很有名,基于dubbo的注册中心一般都是用zookeer实现的。类似的有:尤里卡、执政官等等,都是著名的微服注册中心。

大数据

hadoop是apache基金会开发的分布式系统基础设施。用户可以开发分布式程序,而不知道分布式的底层细节。充分利用集群的力量进行高速计算和存储。hadoop实现了hadoop分布式文件系统(简称hdfs)。

hdfs具有高容错性的特点,设计用于低成本硬件。而且它提供了访问应用数据的高吞吐量,适合大数据集的应用。

hdfs放宽)posix的要求,并可以流式访问文件系统中的数据。hadoop框架的核心设计是hdfs和mapreduce。hdfs为海量数据提供存储,而mapreduce为海量数据提供计算

从java的角度来看,hadoop和spring cloud有些类似。它们不仅仅是一种特定的技术,而是一个生态圈。hadoop包括hive、mapreduce、hdfs等。所以不要把hadoop仅仅当作一种单一的技术。

数据处理技术

mapreduce、spark、storm/flink都是用来处理数据的,比如数据清理、计算、统计等等。

数据处理

mapreduce是一种大数据并行处理的计算模型、框架和平台,隐含以下三层含义:

mapreduce是一个基于集群的高性能并行计算平台(集群基础设施)。它允许市场上常见的商用服务器形成一个具有数十、数百到数千个节点的分布式并行计算集群。

mapreduce是一个用于并行计算和运行的软件框架。它提供了一个庞大但设计良好的并行计算软件框架,可以自动完成计算任务的并行处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务,收集计算结果,并将并行计算中涉及的数据分布式存储、数据通信、容错处理等许多系统底层的复杂细节移交给系统,大大减轻了软件开发人员的负担。

mapreduce是一种并行编程模型方法。借助函数式编程语言lisp的设计思想,提供了一种简单方便的并行编程方法。它使用map和reduce函数对基本并行计算任务进行编程,并提供抽象操作和并行编程接口,从而简单方便地完成大规模数据编程和计算处理

技术的概念一般比较严谨复杂。这里mapreduce缩写为mr,主要功能是处理线下大数据。它可以通过分析大量离线数据来计算我们需要的结果。

火花

apache spark是一款专为大规模数据处理设计的快速通用计算引擎。spark是一个类似hadoop mapreduce的通用并行框架,由加州大学伯克利分校amp实验室开放。spark具有hadoop mapreduce的优势。然而,与mapreduce不同,——job的中间输出结果可以保存在内存中,因此不再需要读写hdfs。因此spark可以更好的应用到需要迭代的mapreduce算法中,比如数据挖掘、机器学习等。

spark是一个类似hadoop的开源集群计算环境,但两者有一些区别。这些有用的差异使spark在某些工作负载中表现更好。换句话说,spark启用了内存分布式数据集,这不仅可以提供交互式查询,还可以优化迭代工作负载。

从概念上可以看出,spark不仅仅是一种技术,而是类似于hadoop,有一个成熟的生态系统,比如spark sql和spark streaming,类似于hadoop中的hive和mr。目前spark广泛用于处理海量数据,因为它既能实现离线数据分析,又能实现实时数据分析。

storm/flink

apache flink是apache software foundation开发的开源流处理框架,其核心是用java和scala编写的分布式流数据流引擎。flink以并行和流水线方式执行任意流数据程序,flink的流水线运行时系统可以执行批处理和流处理程序。另外,flink的运行时本身也支持迭代算法的执行(storm的功能和上面类似,这里就不啰嗦了)。

spark streaming是一个实时数据处理框架。为什么需要storm/flink?因为实时和实时是有时间差的,看下图就能看出两者的区别。

猜你喜欢

  • 第一眼给人高冷女生

    第一眼给人高冷女生120人支持

    美女面对不认识的人一般都很冷淡;如果认识你的美女对你还是冷冰冰的态度,那她们多半是看不起你,甚至鄙视你。无论是在大街上,在商场里,还是在其他公共场所,我们遇到的美女都是极其…

  • 天猫sku最多能放多少?删除和修改的方法

    天猫sku最多能放多少?删除和修改的方法34人支持

    要说哪个logo平台最能代表电子商务的发展,那就是淘宝。淘宝上经营店铺的商家很多,淘宝上购物的用户也很多。今天要回答的问题是,天猫如何删除sku?如果要删除sku库存数量,可以直接…

  • 什么项目投资小赚钱快

    什么项目投资小赚钱快36人支持

    投资要小,钱要快。我想在不违反法律和纪律的情况下,我会向你推荐几个:1/早餐业务。但是早餐生意很辛苦。不知道你能不能忍。半夜起来煮粥,做馒头,做馒头,做茶叶蛋。不过收入还是很…

  • 男的左眼跳是什么预兆?

    男的左眼跳是什么预兆?33人支持

    俗话说“左眼跳财富,右眼跳灾难”。这种说法有一定的依据,但不那么准确。风水理论中,左眼皮跳的预兆是什么?今天我就好好给大家讲讲。眼皮跳暗示的是和十二小时,十神,四神有关。今…

  • 昊华轮胎怎么样

    昊华轮胎怎么样41人支持

    昨天,以“创新驱动、合作共赢”为主题的第十届中国(广饶)国际橡胶轮胎及汽车零部件展览会在山东省广饶国际博览中心开幕,吸引了众多优秀轮胎企业参展。其中,浩华轮胎展厅气势磅…

  • 手机杀毒软件十大排名

    手机杀毒软件十大排名40人支持

    在日常生活中,相信每个人都会遇到这样的事情。手机老是接一些骚扰电话,骗短信,很烦。需要有一个安全软件对手机进行全方位的保护。反骚扰垃圾短信、准确拦截诈骗短信、诈骗电话…

  • 鸡霸是什么意思呢

    鸡霸是什么意思呢94人支持

    作为王者荣耀里第一个单纯的英雄,我几乎不需要任何操作。我见人就用一套技能打,要么你死,要么我活。但是,似乎有一件事,让人很纠结。到底妲己怎么做伤害最高?让我们今天讨论赵廉。…

  • 微信好物圈会成为它体系内的小红书吗

    微信好物圈会成为它体系内的小红书吗43人支持

    对于微信来说,朋友圈已经失去了往日的光芒。一方面,微商和广告的不断侵蚀导致大多数用户对朋友圈失去兴趣。另一方面,随着媒体的崛起,朋友圈不再是表达自己的唯一窗口。微信团队…

  • 创业小项目推荐

    创业小项目推荐14人支持

    鉴于越来越多的农民工返乡,返乡后该怎么办?这是很多人都在思考的问题。我特别关注这群农民工,因为我也是农村人。下面推荐几个小创业项目,我觉得比较适合返乡农民工选择创业。农…

  • 怎么开好网店?新手怎么经营网店

    怎么开好网店?新手怎么经营网店14人支持

    2020年上半年对于很多实体店来说无疑是艰难的,但对于很多网商来说确实值得欣喜。据统计,2020年上半年淘宝的销量比去年增长了40%,所以很多朋友开始对网店有了一些想法。怎样才…

  • 携程拿去花买不了机票

    携程拿去花买不了机票37人支持

    现在,大多数人选择在ctrip.com或去哪里的网上订票、预订酒店和机票,所以这两个平台对每个人来说都很熟悉。随着互联网金融的发展,携程和qunar.com也推出了一项金融服务,即取花。…

  • 花呗还款日期怎么改

    花呗还款日期怎么改26人支持

    长期以来,柏华的还款日期固定在每月10日。突然宣布蚂蚁柏华可以预约调整还款日期,可以将还款日期改为15日或20日。想必这个消息一出,很多支付宝用户还是很开心的。就个人而言,有…