搜索

hadoop、hive与spark三者有什么区别？

hadoop 大数据

网友回复

三者都是基于mapreduce架构，属于三代产品，一代是hadoop，二代hive，三代是spark。

Hadoop是MapReduce一代，分为两大部分：HDFS、Mapreduce。

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

由于hadoop编写mapreduce比较繁琐，于是出现了第二代hive，只需要编写简单的sql就能操作mapreduce运算。

hive的出现方便了程序员和没有计算机背景的数据分析人员。我们只需要编写相对简单的sql命令，hive会帮我们翻译为mapreduce程序交给计算机去执行。

但是一代hadoop与二代hive存在一个共同的问题就是每次执行都是从磁盘中读取导致运行时间太长，无法实时输出结果，这时候三代spark出现了，

spark则是直接从内存中读取的。由于MapReduce 的框架限制，一个 MapReduce 任务只能包含一次 Map 和一次 Reduce，计算完成之后，MapReduce 会将运算结果写回到磁盘中（更准确地说是分布式存储系统）供下次计算使用。如果所做的运算涉及大量循环，比如估计模型参数的梯度下降或随机梯度下降算法就需要多次循环使用训练数据，那么整个计算过程会不断重复地往磁盘里读写中间结果。这样的读写数据会引起大量的网络传输以及磁盘读写，极其耗时，而且它们都是没什么实际价值的废操作。因为上一次循环的结果会立马被下一次使用，完全没必要将其写入磁盘。

by thinkfuture

我知道答案，我要回答

我有问题

私活外包

hadoop、hive与spark三者有什么区别？

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

盲盒游戏开发

帮我们优化架构应对秒杀

找一个兼职产品经理与客户沟通绘制原型

有没有模仿抖音app的vue源码？

win10如何安装telnet命令？telnet不是内部或外部命令

swoole如何监听组播内容？

swoole如何设置tcp的协议内容及一次传输数据大小？

什么是Port Knocking端口敲门？

浏览器原生弹出框弹出层代码怎么写？

bfwsoa在nginx部署时rewrite规则怎么写？

swoole http如何接受客户端上传的文件？

swoole tcp服务器与客户端如何发送大文件？

swoole的tcp服务数据传输如何加密？