如果要访问互联网上的HTML网页,解析其中的图片链接,下载这些图片到本地,然后修改HTML中的图片URL为本地地址,你可以使用PHP的GuzzleHTTP库进行HTTP请求,并使用DOMDocument进行HTML解析。以下是具体实现步骤和示例代码。
示例代码1. 安装依赖确保安装了 GuzzleHTTP 库:
composer require guzzlehttp/guzzle2. 编写PHP脚本
<?php
require 'vendor/autoload.php';
use GuzzleHttp\Client;
use GuzzleHttp\Exception\RequestException;
function downloadImages($html, $saveDir, $baseURL) {
$client = new Client();
// 创建DOMDocument实例并加载HTML
$dom = new DOMDocument;
@$dom->loadHTML($html);
// 获取所有的img标签
$images = $dom->getElementsByTagName('img');
foreach ($images as $img) {
$url = $img->getAttribute('src');
// 如果URL是相对路径,则将其转换为绝对路径
if (!filter_var($url, FILTER_VALIDATE_URL)) {
$url = rtrim($baseURL, '/') . '/' . ltrim($url, '/');
}
// 获取图片文件名
$imageName = basename(parse_url($url, PHP_URL_PATH));
// 本地保存路径
$localPath = $saveDir . DIRECTORY_SEPARATOR . $imageName;
try {
// 下载图片并保存到本地
$response = $client->get($url, ['sink' => $localPath]);
if ($response->getStatusCode() == 200) {
// 替换img标签中的src属性
$img->setAttribute('src', $localPath);
}
} catch (RequestException $e) {
echo "Failed to download $url: " . $e->getMessage() . "\n";
}
}
// 保存修改后的HTML
return $dom->saveHTML();
}
// 访问互联网网页并获取HTML内容
function fetchHTML($url) {
$client = new Client();
try {
$response = $client->get($url);
if ($response->getStatusCode() == 200) {
return (string)$response->getBody();
}
} catch (RequestException $e) {
echo "Failed to fetch HTML: " . $e->getMessage() . "\n";
}
return null;
}
// 示例使用
$url = 'https://www.example.com'; // 目标网页URL
$html = fetchHTML($url);
if ($html) {
// 本地保存图片的目录
$saveDir = 'images';
if (!is_dir($saveDir)) {
mkdir($saveDir, 0777, true);
}
// 处理HTML并保存修改后的内容
$newHtml = downloadImages($html, $saveDir, $url);
file_put_contents('example_modified.html', $newHtml);
echo "Images downloaded and HTML updated.\n";
}
?> 说明读取HTML内容:
使用GuzzleHTTP库访问目标网页并获取HTML内容。function fetchHTML($url) {
$client = new Client();
try {
$response = $client->get($url);
if ($response->getStatusCode() == 200) {
return (string)$response->getBody();
}
} catch (RequestException $e) {
echo "Failed to fetch HTML: " . $e->getMessage() . "\n";
}
return null;
} 解析HTML并提取所有图片URL:
使用DOMDocument加载HTML内容并提取所有img标签的src属性。$dom = new DOMDocument;
@$dom->loadHTML($html);
$images = $dom->getElementsByTagName('img'); 下载图片并保存到本地:
使用GuzzleHTTP库下载图片并保存到本地目录。$client = new Client();
foreach ($images as $img) {
$url = $img->getAttribute('src');
if (!filter_var($url, FILTER_VALIDATE_URL)) {
$url = rtrim($baseURL, '/') . '/' . ltrim($url, '/');
}
$imageName = basename(parse_url($url, PHP_URL_PATH));
$localPath = $saveDir . DIRECTORY_SEPARATOR . $imageName;
try {
$response = $client->get($url, ['sink' => $localPath]);
if ($response->getStatusCode() == 200) {
$img->setAttribute('src', $localPath);
}
} catch (RequestException $e) {
echo "Failed to download $url: " . $e->getMessage() . "\n";
}
} 修改HTML内容中的图片URL为本地地址:
更新img标签的src属性为本地图片路径。$img->setAttribute('src', $localPath); 保存修改后的HTML内容:
return $dom->saveHTML();
执行脚本并保存结果:
$url = 'https://www.example.com'; // 目标网页URL
$html = fetchHTML($url);
if ($html) {
$saveDir = 'images';
if (!is_dir($saveDir)) {
mkdir($saveDir, 0777, true);
}
$newHtml = downloadImages($html, $saveDir, $url);
file_put_contents('example_modified.html', $newHtml);
echo "Images downloaded and HTML updated.\n";
} 这样,通过使用GuzzleHTTP库和DOMDocument类,可以实现从互联网访问HTML网页,解析其中的图片链接,下载图片到本地,并将HTML中的图片URL修改为本地地址的功能。
网友回复


