回答-BFW问答

一般基于下面两种，不过openai收购了chrome，会不会出现第三种呢：

1、基于视觉定位，通过视觉大模型读取网页截图，让大模型告诉用户下一步该点击哪？browser-use就是这样：https://github.com/browser-use/browser-use

2、基于dom树解析定位，dom树需要清洗，去掉无用的css与js，保留有用的网页布局代码，让大模型根据class或id来操作元素。