搜索

回答

三者都是基于mapreduce架构，属于三代产品，一代是hadoop，二代hive，三代是spark。

Hadoop是MapReduce一代，分为两大部分：HDFS、Mapreduce。

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

由于hadoop编写mapreduce比较繁琐，于是出现了第二代hive，只需要编写简单的sql就能操作mapreduce运算。

hive的出现方便了程序员和没有计算机背景的数据分析人员。我们只需要编写相对简单的sql命令，hive会帮我们翻译为mapreduce程序交给计算机去执行。

但是一代hadoop与二代hive存在一个共同的问题就是每次执行都是从磁盘中读取导致运行时间太长，无法实时输出结果，这时候三代spark出现了，

spark则是直接从内存中读取的。由于MapReduce 的框架限制，一个 MapReduce 任务只能包含一次 Map 和一次 Reduce，计算完成之后，MapReduce 会将运算结果写回到磁盘中（更准确地说是分布式存储系统）供下次计算使用。如果所做的运算涉及大量循环，比如估计模型参数的梯度下降或随机梯度下降算法就需要多次循环使用训练数据，那么整个计算过程会不断重复地往磁盘里读写中间结果。这样的读写数据会引起大量的网络传输以及磁盘读写，极其耗时，而且它们都是没什么实际价值的废操作。因为上一次循环的结果会立马被下一次使用，完全没必要将其写入磁盘。

网友回复

我知道答案，我要回答

我有问题

私活外包

回答

开发了一个网站ai聊天助手

一个月开发一套类似coze的智能体平台

部署一套内网离线ai助理

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

如何通过截屏ocr识别元素坐标来调用大模型api实现自动操作电脑？

阿里的qwen-vl与gui-plus哪个更强？

向量语义匹配为啥需要rerank重新排序？

adb模拟用户输入为啥不支持中文输入？

python如何操作adb调用多模态大模型api实现类似豆包手机的自动化操作安卓手机？

redis如何开启auth连接密码访问?

抖音爆火的手势控制圣诞树粒子动画特效代码有吗？

ai生成的照片图片如何分层可以自己调整？

window如何直接运行linux的二进制程序？

A2UI到底是啥？