· 技术笔记 · 12 次阅读

Web Access:一个 Skill,拉满 Agent 联网和浏览器能力

这个 Skill,能让你的 Agent 联网能力提升到最离谱的一集。

这是我用这个 Skill 跑的 Agent 任务:

10 个子 Agent 同时操作小红书、微博、B站、Boss、虎嗅等 10 个不同平台,

一次性打开 100 个网页,并行操作各平台界面,查阅内容、汇总报告。

Image 1

不抢用户电脑控制权,Agent 后台自行站内搜索、连续操作网页。

还能帮你**自动在各大社交平台发布内容。**包括打开社媒平台、填文案、传图片、自动发布,无需人为介入。

Image 2

**更日常、真实的各类联网需求,都能处理:**比如替你找剧集播放、查询美签预约系统(甚至可以直接帮你完成预约)

Image 3

还能自动化 Web 测试;遇到部分人机验证,也能自动过。

Image 4

而且 Skill 内部设计了自动沉淀站点操作经验的机制,Agent 联网操作越用越顺。

这些能力,都是 Agent 在这套 Skill 加持后的泛化表现,无需针对任何站点特化调优。

Claude Code、Openclaw 等所有支持 skill 的 Agent 都可使用。

请允许我向你介绍 ⬇️

Web Access,一款开源的 Agent Skill,自测最好用 Agent 通用联网方案。

本文将向你分享 Skill 获取方法,顺便讲讲 Skill 的设计哲学 ➡️ 兼顾「只想上手即用」、「了解 Skill 设计方法」的朋友阅读。


起因:Agent 不是能联网吗,为什么要加这个?

想上手即用的可直接跳到下一节~

我在做这套 Skill 之前,完整调研过 Claude Code、OpenClaw 的联网实现。

Agent 们都有自己的联网工具,但着实不够好用:

  • Claude Code:默认 Web Search 做搜索、Web Fetch 读页面;装 Playwright、Chrome Devtool MCP 后也能控制浏览器。
  • OpenClaw:同样提供 Search、fetch 的轻量 web 工具,遇到需登录/动态网站,能用 CDP 模式创建 Agent 专用浏览器。

Image 5

前者 Claude Code 只提供工具,访问策略全靠模型判断。

想法美好,现实骨感:模型太容易钻牛角尖了,一个"调研小红书中关于 XX 的风评"问题:

  • 要么拿着 Search 工具,换各种关键词在搜索引擎里请求非公开网页的信息

Image 6

  • 要么用 fetch 无能地请求需要登录、JS 密集的网站(根本加载不出来)
  • 要么得自行安装 Playwright、Agent Browser Cli,还免不了多次踩坑

后者 OpenClaw,则依靠降级策略兜底:

  • 要么提供 CDP 模式,支持为 Agent 单独维持一个登录态 Profile,每个网站都需要重新为其登录,部分网站组件在 CDP 模式下也有无法加载的环境限制。
  • 要么多下载一个浏览器插件,使其能够直接操作用户浏览器。

Image 7

而且,它们对 Agent 并发操作多个网页的支持都不算很好,还可能和你抢浏览器控制权(表现为刚开新浏览器的时候,弹出网页抢走屏幕焦点等)。

我们也总希望 Agent 能在任务过程中,积累各站点的操作试错经验。

可惜经验也无法高效地聚类积累:CC 跨会话记忆不积极,踩过的坑下次照踩;OpenClaw 的 Memory 理论上能记,但上下文占用太重,总结也不够精准。

⬇️

理想的 Agent 联网方案,应该能看清楚自己手里有几张牌:

  1. 灵活分配搜索、静态读取、浏览器策略,遇到障碍能自己换工具,而不是在一条死路上反复撞。
  2. 复用你已有的登录态,不为每个站点单独维护一套身份。
  3. 强大的泛化能力,适应不同联网任务与目标站的操作、反爬要求。
  4. 支持 Sub-Agent 分治、高并发跑海量网页。后台执行,互不干扰,不抢你的浏览器控制权。
  5. 沉淀联网操作经验,下次访问同一个站点不用从头试错。

Web Access Skill 完全解决了以上问题,正是当前对这些问题的一个答案 ⬇️

Image 8


Web Access 安装方法:解锁 Agent 完全联网能力

Web-access Skill,兼容 Claude Code、OpenClaw,以及任何支持 skill 的 Agent。

Image 9

把下面这段话发给你的 Agent,就能完成安装:

帮我安装 web-access skill,仓库地址是 https://github.com/eze-is/web-access。这个 skill 原为 Claude Code 设计,安装前请先理解其核心原理和工作逻辑,再结合你的 Agent 架构与电脑环境进行适配,使其真正融入当前环境,而非生硬移植。

Agent 会自动下载、配置环境,完成安装。不需要你手动操作。

为了确保浏览器操作的顺利,除了鼓励使用 Claude、Kimi K2.5 等大参数多模态 Agent 模型外,你还需要确认:

  1. 【必须】安装 Chrome 浏览器并更新到最新版本
  2. Chrome 浏览器地址栏输入 chrome://inspect/#remote-debugging,勾选 Allow remote debugging for this browser instance

Image 10

配置完成后,你只需要在 Agent 聊天窗口,输入"遵循 web-access skill"手动要求 Agent 参考;或直接输入你想做的联网相关的事情:

  • 搜索信息、查看网页内容:"帮我查 xx"
  • 操作网页界面(填表、点击、上传):"打开 xx"
  • 抓取、发布社交平台内容:"帮我在 xx 平台写 xx"
  • 以及读取动态渲染页面、任何需要浏览器的网络任务

当 Agent 接到指令后,会在 Chrome 上弹出一个提示,同意的话,点击允许就好:

Image 11

比如「调研小红书上 qwen、minimax、glm 的风评」:

Agent 自动加载 Skill,多开 Agent,免登进入小红书,并行调研数十个网页内容(支持文字直接阅读与截图多模态识别)

Image 12

并且,在执行任务时,可自动沉淀常用网站的操作经验,可以显著提升后续执行效率(约节省 90% 的时间)

Image 13

对了,如需最佳体验,强烈建议关闭多余的浏览器 MCP 服务,如 Chrome Devtools、Playwright MCP,避免模型在工具中左右互搏。


这个 Skill 是如何做到的?

不需要看 Skill 设计原理的,可以直接滑到文末,有件很好玩的事分享给你。

此为简介版,完整 Agent Skill 进阶设计经验,将会在后续「见知录」系列中重新整理解析,欢迎关注。

不要小看 Skill 与 Prompt 的设计。Skill 的底层实现原理导致:

  • 针对固定任务,它可以是很具体的工作流经验「收集 XX 信息,汇总为 XX 报告」
  • 面向通用场景,也可以视作 Agent 框架 system prompt 一部分,统筹某个原子化能力(虽然不如 agent 框架改造彻底)。

联网,是一种典型的通用场景:

你让人类同事去查信息,不会告诉他「用搜索引擎还是打开浏览器」—— 你只说「上网帮我查一查 XX」。

人类会自然地根据联网任务的刻板印象,盘点自己有的联网方法(搜索引擎、站内搜索、阅读网页、点击交互、而且能并行开多个 tab 操作网页),初步计划自己的第一步操作:

  • 阿里云某云服务定价:搜索引擎关键词"阿里云 某某云服务",找到官网对应页面(因为比直接上官网顺手)
  • 小红书博主的更新情况:直接打开小红书,搜索该博主名称
  • 发布社媒帖子:打开站点,登录账号,直接创建帖子并发布

我们在行动反馈中,实时调整自己的查询方法。不同的方法往往联用在一起,你很难说哪个行为可以完全孤立。

而第一步计划离不开刻板印象的作用,虽不准确,但足以作为执行验证的第一步。再结合后续「验证-校准计划」的 Action Loop,在不断「尝试」中结束任务。

BTW: 此前 CC 和 OpenClaw 在联网任务中,表现「一条道走到黑」、「并行能力差」等行为,往往源自没有像人类一样思考规划任务,或没有充足好用的基础工具。

接下来正式分享 Web Access Skill 中精妙之处:

Image 14


1)Skill 的哲学式设计

提出一个 Skill 设计理念:

激发模型能力上限的 Skill = Agent 策略哲学 + 最小完备工具集 + 必要的事实说明

Image 15

具体点解释:通用场景的 Agent Skill 或 Prompt,需避免过度指定 Agent「该怎么做」。

更侧重重新校准模型在对应场景的「策略哲学」、补充 Agent 缺少的「基础工具」、提前强调模型显然未必记得的「事实说明」。

Web-access 正是按这个思路,精细雕琢了联网场景的浏览哲学。

Image 16

模型的思考是上下文的惯性衔接。而模型容易陷入「刻板印象」,在复杂任务中做「惯性不思考」:

  • 联网查数据?那必然用 Web Search 工具啊
  • 网上搜到这么多个站点都这么写?那肯定就是事实啊
  • 网站用 fetch 加载不出来?肯定是网站挂了啊

⬇️

为了对抗模型的显式惯性,方法是:在 Skill 中,为模型提供闭合、高度抽象的思考策略哲学。

Web Access Skill 里定义了一个四步循环:

Image 17

① 拿到任务,先定义成功标准:什么算完成了?拿到什么信息、执行什么操作、达到什么结果?这是后续所有判断的锚点。

② 选一个最可能直达的方式作为起点去验证,比如已知涉及需要登录态、反爬的平台,直接进浏览器,不在静态工具(Search、Fetch、Curl)上浪费时间。

③ 过程校验:每一步的结果都是证据,不只是「成功 / 失败」的二元信号。搜索没命中,不一定是关键词不对,也可能是目标本身不存在。页面缺少预期元素、重试无改善,都是在告诉你该换方向了。遇到弹窗和登录墙,先判断它是否真的挡住了目标内容——内容可能已经在 DOM 里,交互只是展示手段。

④ 对照成功标准,确认任务完成后停止。不过度操作与纠结。

这部分浏览哲学,没有写任何具体操作路径,只是把「怎么思考联网任务」描述清楚了。Agent 理解了这个框架,遇到没见过的网页、任务也能给出更好的策略。


2)提供工具的最小完备集

通用场景的灵活处理能力,建立在给 Agent 提供工具的最小完备集之上。

大部分 Agent 框架都有一些联网工具,但整合得不够全面,可能缺少某些原子化能力。Skill 做的事,是把联网场景需要的工具整合到位,并清晰描述每个工具的能力边界。

人类上网其实就三种行为:(找到信息在哪)、(看到内容)、(在页面上执行操作)。覆盖这三种行为,就构成了联网工具的最小完备集。

对应到 Agent,则需要这些具体工具:

Image 18

  • → Search,搜索摘要、发现信息来源
  • → Fetch / curl(公开页面 AI 提取 / 全文读取)或 浏览器打开(需登录、动态渲染的页面)
  • → 浏览器自动化,点击、填表、上传等交互操作

Skill 里用一张工具能力说明表,把这些工具的基础差异说清楚,为模型在不同任务中规划使用,提供参考基础:

Image 19

关于浏览器为什么选 Chrome 自带 CDP:早期测试了 web-access 基于 Agent Browser 多开不同 CDP 端口方案,并行效果不错,需要多开浏览器窗口,而非单窗口多 Tab,体验不佳。

刚好 Chrome 发布了原生 remote debugging 能力,测试发现原生 WebSocket 交互方式能更好地规避大部分网站的反爬识别,而且天然支持单个浏览器内多 tab 并行后台操作,直连用户日常 Chrome,天然携带登录态。——于是迁移到了 CDP。

附:为什么不走 Agent Reach 的路线?

Agent Reach 这类方案是为每个网站单独写一套抓取方法。对支持的站点快且稳,但覆盖有限,对于有特定需求的用户效果也不错。

Web-Access 选的是更加通用的联网方案:任何你能打开的网站 Agent 都能用,不依赖预设方法,更侧重激发 Agent Native 能力,覆盖面几乎没有上限。这是有意为之的取舍。


3)补充必要的事实说明

诚然,模型近乎知道所有知识,但并非所有知识都能在任务中,第一时间被调用。导致任务执行不及预期效率,或带来不希望的风险。

所以需要强调任务涉及到的「惰性知识」。

Image 20

Image 21

篇幅有限,挑选了部分设计,阐明在 Skill Prompt 中的差异:

1)验证惰性知识边界,补充事实说明:

模型在任务中,有很多未必快速记得的「事实、方法(惰性知识)」。

在 Skill 设计中,需要找到容易重复遗忘的边界,针对必要的信息,在 Skill 中直接补充。

Image 22

Image 23

以及一些特定的边界事实情况:

Image 24

2)对于某些有最优路径的事情,直接指定:

哪怕是再通用的任务,也会有一些唯一的、可直接执行的最优方式。

最小化的必要提示:

Image 25

巧用 Script/脚本文件:

Image 26

都可减少模型思考、试错步骤。

3)强调安全风险边界:

由于浏览器 CDP 模式直接涉及到操纵用户自用浏览器,Agent 极有可能会交叉使用 or 关闭用户原有标签。

如果你不希望模型做什么高危的事情,请明确强调。

Image 27


子 Agent 分治:写目标,不写步骤

联网任务经常涉及多个独立目标,如同时查 5 个竞品、调研 50 个网页。

如果主 Agent 串行处理,不仅慢,所有抓取到的中间内容,还会涌入主 Agent 的上下文,token 膨胀严重,后续推理质量也会下降。

可以利用 Claude Code 等 Agent 框架的 Sub-agent 机制,通过 Skill Prompt 设计,鼓励分治——把独立的子任务分配给子 Agent 并行执行,主 Agent 只接收汇总后的结果。开场那个 10 个 Agent 同时调研 10 个平台,开 100 个网页的案例,就是这个机制在工作。

Image 28

Image 29

架构上,所有子 Agent 共享同一个 Chrome、同一个 CDP Proxy,各自创建自己的后台 tab,通过不同的 targetId 操作,互不干扰,无竞态风险。不需要为每个子 Agent 单独启动浏览器实例。

特别强调,这里有一个容易忽略但很重要的机制陷阱:

主 Agent 给子 Agent 写 prompt 时,默认会使用干扰子 Agent 行为的用词,影响子 Agent 内模型的判断。

比如,你写「调研小红书上关于 XX 的风评」,主 Agent 极有可能这么自动分配子 Agent 的 Prompt:

Image 30

❌ 「去小红书搜索关键词 XX,找到前 10 篇帖子,抓取内容」

这种 prompt 存在几个问题:

  • 暗示了具体执行手段("搜索"),直接把子 Agent 锚定到了一个工具上
  • 预设了信息的组织形式("前 10 篇帖子"),可能并不符合平台的实际内容结构

✅ 正确的写法应该是:

「了解小红书上关于 XX 产品的用户评价,汇总主要观点和情感倾向」

这种 prompt 只描述目标,不限定手段。子 Agent 能自主判断最有效的信息获取方式。

Image 31

子 Agent 分治的判断标准:

适合分治 不适合分治
目标相互独立,结果互不依赖 目标有依赖关系,下一个需要上一个的结果
每个子任务量足够大(多页抓取、多轮搜索) 简单单页查询,分治开销大于收益
需要浏览器或长时间运行的任务 几次搜索就能完成的轻量查询

站点经验自动沉淀

在执行任务时,Web Access 能自动沉淀常用网站的操作经验。

Image 32

当你访问一个新站点,Agent 会探索其页面结构、反爬策略、可用操作等,并将这些经验保存下来。下次访问同一站点时,Agent 可以直接参考已有经验,跳过试错阶段,大幅提升效率。

Image 33

当然,也可以直接使用我积累的经验。Web Access 开源仓库中维护了一份站点经验数据库,覆盖了小红书、微博、B站等主流平台。

Image 34

不过也没关系,一旦你装上 Skill 之后,用多了自然也会攒出自己的站点经验。


写在最后

这个 Skill 真的迭代了很多版本,也越改越兴奋。

当看到 Agent 能够自发调动大量 sub-agent,在同一个浏览器窗口内开出上百个窗口并行,自主摸索各个网站结构,积累操作经验时,你很难不暗暗开心这么一件事:

只靠一个人设计的 Skill,就用通用模型与 Agent 框架,做出了体验过的 AI 产品们中,最丝滑的 Browser Use 效果。

而本文也是第一次公开了关于 Agent 工程的设计思考:

如何在 Agent 框架中有效雕花,以激发 Agent 的自主智力?答案是:

Skill = Agent 策略哲学 + 最小完备工具集 + 必要的事实说明

也可以期待后续「见知录」整理出的更完善的 Skill 设计经验分享,值得关注。

BTW:对了,装好 Skill 了吗?

一起来玩:把这个任务发给你的 Agent:

开10个 sub agent,分别调研小红书、微博、B站、Boss直聘、github、知乎、即刻、豆瓣、36kr、虎嗅的首页,每个sub agent分别开10个tab,并行调研今天内容、趋势、值得找的工作情况,汇总为更新报告。

考验你的电脑配不配得上 Agent 的时候来了 ⬇️(因为大概率会卡死,所以运行前请确保电脑文件均保存完毕…不然不建议玩这个)

欢迎社媒分享你电脑的内存占用图:你跑了多少并发?作者的纪录是 Chrome 38.6GB,Claude Code 14 GB,然后就卡…死了

——对不起,我的 Agent,是我的电脑配不上你了 🙂

更新快乐,也感谢 Star 与分享 :)

👉 Agent Skill 安装地址:https://github.com/eze-is/web-access