如何通过截屏ocr识别元素坐标来调用大模型api实现自动操作电脑?
以前的截图定位,ai大模型老是不进准,能否通过ocr插件,例如winorc或deepseekocr等来先进行识别每个元素,然后交给ai大模型来判断该怎么操作,输入还是点击?
网友回复
如何通过截屏ocr识别元素坐标来调用大模型api实现自动操作电脑?
以前的截图定位,ai大模型老是不进准,能否通过ocr插件,例如winorc或deepseekocr等来先进行识别每个元素,然后交给ai大模型来判断该怎么操作,输入还是点击?
网友回复