搜索

回答

如果要访问互联网上的HTML网页，解析其中的图片链接，下载这些图片到本地，然后修改HTML中的图片URL为本地地址，你可以使用PHP的GuzzleHTTP库进行HTTP请求，并使用DOMDocument进行HTML解析。以下是具体实现步骤和示例代码。

示例代码1. 安装依赖

确保安装了 GuzzleHTTP 库：

composer require guzzlehttp/guzzle

2. 编写PHP脚本

<?php
require 'vendor/autoload.php';

use GuzzleHttp\Client;
use GuzzleHttp\Exception\RequestException;

function downloadImages($html, $saveDir, $baseURL) {
    $client = new Client();

    // 创建DOMDocument实例并加载HTML
    $dom = new DOMDocument;
    @$dom->loadHTML($html);

    // 获取所有的img标签
    $images = $dom->getElementsByTagName('img');

    foreach ($images as $img) {
        $url = $img->getAttribute('src');

        // 如果URL是相对路径，则将其转换为绝对路径
        if (!filter_var($url, FILTER_VALIDATE_URL)) {
            $url = rtrim($baseURL, '/') . '/' . ltrim($url, '/');
        }

        // 获取图片文件名
        $imageName = basename(parse_url($url, PHP_URL_PATH));

        // 本地保存路径
        $localPath = $saveDir . DIRECTORY_SEPARATOR . $imageName;

        try {
            // 下载图片并保存到本地
            $response = $client->get($url, ['sink' => $localPath]);
            if ($response->getStatusCode() == 200) {
                // 替换img标签中的src属性
                $img->setAttribute('src', $localPath);
            }
        } catch (RequestException $e) {
            echo "Failed to download $url: " . $e->getMessage() . "\n";
        }
    }

    // 保存修改后的HTML
    return $dom->saveHTML();
}

// 访问互联网网页并获取HTML内容
function fetchHTML($url) {
    $client = new Client();
    try {
        $response = $client->get($url);
        if ($response->getStatusCode() == 200) {
            return (string)$response->getBody();
        }
    } catch (RequestException $e) {
        echo "Failed to fetch HTML: " . $e->getMessage() . "\n";
    }
    return null;
}

// 示例使用
$url = 'https://www.example.com'; // 目标网页URL
$html = fetchHTML($url);

if ($html) {
    // 本地保存图片的目录
    $saveDir = 'images';
    if (!is_dir($saveDir)) {
        mkdir($saveDir, 0777, true);
    }

    // 处理HTML并保存修改后的内容
    $newHtml = downloadImages($html, $saveDir, $url);
    file_put_contents('example_modified.html', $newHtml);

    echo "Images downloaded and HTML updated.\n";
}
?>

说明

读取HTML内容：

使用GuzzleHTTP库访问目标网页并获取HTML内容。

function fetchHTML($url) {
  $client = new Client();
  try {
      $response = $client->get($url);
      if ($response->getStatusCode() == 200) {
          return (string)$response->getBody();
      }
  } catch (RequestException $e) {
      echo "Failed to fetch HTML: " . $e->getMessage() . "\n";
  }
  return null;
}

解析HTML并提取所有图片URL：

使用DOMDocument加载HTML内容并提取所有img标签的src属性。

$dom = new DOMDocument;
@$dom->loadHTML($html);
$images = $dom->getElementsByTagName('img');

下载图片并保存到本地：

使用GuzzleHTTP库下载图片并保存到本地目录。

$client = new Client();
foreach ($images as $img) {
  $url = $img->getAttribute('src');
  if (!filter_var($url, FILTER_VALIDATE_URL)) {
      $url = rtrim($baseURL, '/') . '/' . ltrim($url, '/');
  }
  $imageName = basename(parse_url($url, PHP_URL_PATH));
  $localPath = $saveDir . DIRECTORY_SEPARATOR . $imageName;
  try {
      $response = $client->get($url, ['sink' => $localPath]);
      if ($response->getStatusCode() == 200) {
          $img->setAttribute('src', $localPath);
      }
  } catch (RequestException $e) {
      echo "Failed to download $url: " . $e->getMessage() . "\n";
  }
}

修改HTML内容中的图片URL为本地地址：

更新img标签的src属性为本地图片路径。

$img->setAttribute('src', $localPath);

保存修改后的HTML内容：

return $dom->saveHTML();

执行脚本并保存结果：

$url = 'https://www.example.com'; // 目标网页URL
$html = fetchHTML($url);
if ($html) {
    $saveDir = 'images';
    if (!is_dir($saveDir)) {
        mkdir($saveDir, 0777, true);
    }
    $newHtml = downloadImages($html, $saveDir, $url);
    file_put_contents('example_modified.html', $newHtml);
    echo "Images downloaded and HTML updated.\n";
}

这样，通过使用GuzzleHTTP库和DOMDocument类，可以实现从互联网访问HTML网页，解析其中的图片链接，下载图片到本地，并将HTML中的图片URL修改为本地地址的功能。

网友回复

我知道答案，我要回答

我有问题

回答

win10上powershell运行wsl报错Wsl/0x80072f7d如何解决？

人工智能技术属于科学范畴吗？

pi与claw及codex有啥不同？

有没有在电脑上运行iphone虚拟机的软件？

如何将电脑扬声器声音同步输出到另外一台手机或电脑上/

为啥图片和视频大模型的提示词支持json和python代码？

Chromium的 Kiosk 模式是干啥的？

豆包如何生成15秒以上的视频？

ai文本大模型最后会升级成做任何动画片吗？

python有没有一键扒谱和音乐背景旋律与人声分离的库？