搜索

c#如何调用gemini api实现文本描述来自动化操作电脑软件？

人工智能 csharp

c#如何调用gemini api实现文本描述来自动化操作电脑软件？比如模拟鼠标和键盘点击屏幕位置进行一步一步操作，gemini的api如何编写？

网友回复

这是一个非常经典且强大的 AI Agent 应用场景。将截图、历史步骤和当前目标结合起来，让 Gemini 进行“观察-思考-行动”的循环，是实现复杂任务自动化的关键。

这完全可行，其核心思想就是创建一个“观察-思考-行动”（Observe-Think-Act）的循环。您的 C# 程序将作为这个循环的执行者（Orchestrator）。

下面，我将为您详细分解实现这个任务的架构、关键代码和最佳实践。

架构设计：观察-思考-行动循环

观察 (Observe): C# 程序负责截取当前整个屏幕或特定应用窗口的图像。

思考 (Think): C# 程序将截图数据、任务的最终目标、以及一个记录了所有已执行操作的历史列表，一同发送给 Gemini 1.5 Pro（这个任务必须使用支持图像输入的多模态模型）。

行动 (Act): Gemini API 会分析这些信息，并返回一个结构化的 JSON 对象，其中包含下一个具体的操作指令（例如，点击坐标 (x,y) 或者输入文本）。C# 程序解析这个 JSON，并使用 UI 自动化库（如 FlaUI）来执行该操作。

这个循环会一直持续，直到 Gemini 返回一个特殊的“任务完成”指令。

1. 定义详细的 JSON 操作指令

首先，我们需要和 Gemini “约定”好一个详细的 JSON 通信格式。这个格式越清晰，Gemini 的输出就越可靠。我们可以在 C# 中创建一个对应的类来方便地进行序列化和反序列化。

C# ActionCommand 类:

public class ActionCommand
{
    // 操作类型：click, double_click, right_click, type, key_combo, finish
    public string Action { get; set; }

    // 操作的X坐标 (对于点击类操作)
    public int? X { get; set; }

    // 操作的Y坐标 (对于点击类操作)
    // 为什么用坐标？因为模型直接从图片中识别位置比识别控件ID更直观
    public int? Y { get; set; }

    // 要输入的文本 (对于 type 操作)
    public string Text { get; set; }

    // 键盘组合键，例如 ["CONTROL", "S"] (对于 key_combo 操作)
    public List<string> Keys { get; set; }

    // 模型对当前操作的思考...

点击查看剩余70%

by 爱电脑

我知道答案，我要回答

我有问题

c#如何调用gemini api实现文本描述来自动化操作电脑软件？

win10上powershell运行wsl报错Wsl/0x80072f7d如何解决？

人工智能技术属于科学范畴吗？

pi与claw及codex有啥不同？

有没有在电脑上运行iphone虚拟机的软件？

如何将电脑扬声器声音同步输出到另外一台手机或电脑上/

为啥图片和视频大模型的提示词支持json和python代码？

Chromium的 Kiosk 模式是干啥的？

豆包如何生成15秒以上的视频？

ai文本大模型最后会升级成做任何动画片吗？

python有没有一键扒谱和音乐背景旋律与人声分离的库？