Storm的计算模型:
针对每条记录的流式实时计算框架,是一种比较纯粹的实时计算框架,但是存在一个问题!Storm由于每来一条数据都会处理下,所以吞吐量并不高。
为什么吞吐量不高?
因为每条数据过来就直接处理,那么每条数据的处理都存在开销。也就是说,storm机器的很多计算资源都会消耗在大量的其他方面,比如数据的传输、校研,通信等等,所以吞吐量并不能说非常高!
Spark streaming流计算框架:
会把一个时间batch里面过来的数据都收集起来,然后再一次性,作为一个batch给Spark Streaming Application进行处理。
Spark streaming的计算模型是基于batch的,所以严格意义上来说,spark streaming不是纯碎的实时计算框架,更多的是一种准实时计算框架。
所以,Spark streaming的吞吐量,远远高于Storm,因为对每条数据处理的额外开销少了。对一个batch,才有数据传输、通信的开销。
Storm支持在分布式流式计算程序(Topology)在运行过程中,动态的调整并行度,从而动态提高并发处理能力,而spark Streaming是无法动态调整并行度的。
网友回复
如何编写一个chrome插件实现多线程高速下载大文件?
cdn版本的vue在网页中出现typeerror错误无法找到错误代码位置怎么办?
pywebview能否使用webrtc远程控制共享桌面和摄像头?
pywebview6.0如何让窗体接受拖拽文件获取真实的文件路径?
如何在linux系统中同时能安装运行apk的安卓应用?
python有没有离线验证码识别ocr库?
各家的ai图生视频及文生视频的api价格谁最便宜?
openai、gemini、qwen3-vl、Doubao-Seed-1.6在ui截图视觉定位这款哪家更强更准?
如何在linux上创建一个沙箱隔离的目录让python使用?
pywebview如何使用浏览器自带语音识别与webspeech 的api?