搜索

请问php如何实现hadoop的map reduce并行计算？

php

网友回复

Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到java。

但hadoop里面有个contrib叫做hadoop streaming，这是一个小工具，为hadoop提供streaming支持，使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper 或者 reducer。

例如：

hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc

在这个例子里，就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer，是不是很神奇？

如果你习惯了使用一些动态语言，用动态语言来写mapreduce吧，跟之前的编程没有任何不同，hadoop只是运行它的一个框架，下面我演示一下用PHP来实现Word Counter的mapreduce。找到streaming jar hadoop根目录下是没有hadoop-streaming.jar的，因为streaming是一个contrib，所以要去contrib下面找，以hadoop-0.20.2为例，它在这里：

$HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar

先写mapper 新建一个wc_mapper.php，写入如下代码：

#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
  $words = preg_split(‘/\W/’, $line, 0, PREG_SPLIT_NO_EMPTY);
  foreach ($words as $word)
    $results[] = $word;

}
fclose($in);
foreach ($results as $key => $value)
{
print “$value\t1\n”;
}

这段代码的大致意思是：把输入的每行文本中的单词找出来，并以

”hello 1

world 1″

这样的形式输出出来。和之前写的PHP基本没有什么不同，对吧，可能稍微让你感到陌生有两个地方： PHP作为可执行程序第一行的“#!/usr/bin/php”告诉linux，要用/usr/bin/php这个程序作为以下代码的解释器。写过linux shell的人应该很熟悉这种写法了，每个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python 有了这一行，保存好这个文件以后，就可以像这样直接把wc_mapper.php当作cat, grep一样的命令执行了：./wc_mapper.php 使用stdin接收输入 PHP支持多种参数传入的方法，大家最熟悉的应该是从$_GET, $_POST超全局变量里面取通过Web传递的参数，次之是从$_SERVER['argv']里取通过命令行传入的参数，这里，采用的是标准输入stdin 它的使用效果是：在linux控制台输入 ./wc_mapper.php wc_mapper.php运行，控制台进入等候用户键盘输入状态用户通过键盘输入文本用户按下Ctrl + D终止输入，wc_mapper.php开始执行真正的业务逻辑，并将执行结果输出那么stdout在哪呢？print本身已经就是stdout啦，跟我们以前写web程序和CLI脚本没有任何不同。 再写reducer 新建一个wc_reducer.php，写入如下代码：

#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
  list($key, $value) = preg_split(“/\t/”, trim($line), 2);
  $results[$key] += $value;
}
fclose($in);
ksort($results);
foreach ($results as $key => $value)
{
  print “$key\t$value\n”;
}

这段代码的大意是统计每个单词出现了多少次，并以

”hello 2

world 1″ 这样的形式输出。用hadoop来运行上传要统计的示例文本

hadoop fs -put *.TXT /tmp/input

以Streaming方式执行PHP mapreduce程序

hadoop jar hadoop-0.20.2-streaming.jar -input /tmp/input -output /tmp/output -mapper wc_mapper.php的绝对路径 -reducer wc_reducer.php的绝对路径

注意： input和output目录是在hdfs上的路径 mapper和reducer是在本地机器的路径，一定要写绝对路径，不要写相对路径，以免到时候hadoop报错说找不到mapreduce程序查看结果 hadoop fs -cat /tmp/output/part-00000

by thinkfuture

我知道答案，我要回答

我有问题

私活外包

请问php如何实现hadoop的map reduce并行计算？

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

盲盒游戏开发

帮我们优化架构应对秒杀

找一个兼职产品经理与客户沟通绘制原型

有没有开源的数据推荐系统代码？

php如何检测内存多少g与及cpu核心等数据？

docker镜像如何打包成二进制可执行运行文件exe？

docker中不同的容器如何相互通讯？

如何编写chrome插件实现选择网页文本进行聊天对话？

有没有打通chatgpt等各大模型api的开源免费聊天系统源码？

swoole重启工作进程$server->reload()不起作用？

mysql支持向量插入与近似查询吗？

php怎么实现向量数据库插入查询相似度等代码？

怎么看待李彦宏说的开源模型越来越落后？