OpenClaw
按照 OpenClaw 官方文档里的说法,它本质上是一个运行在本机上的自托管 AI Agent Gateway:可以把 GPT、Claude 之类的大模型连接到文件、Shell、浏览器,以及 WhatsApp、Telegram、Discord、iMessage 等聊天渠道里,让你像发消息一样调用一个“真的会去做事”的助手。它强调的卖点也很明确:本地运行、多渠道接入、持久记忆、可扩展技能,以及不把数据完全交给某个托管平台。
这最近异军突起的一支潜力股,甚至在全国上下掀起了养虾的狂潮。作为一个追风达人,当然也是因为永哥在我生日的时候赠送了我一台 Mac mini,我应该也算是头几个批次吃上龙虾的人。得益于 macOS 系统相对便捷的操作和安装逻辑,我几乎没有费什么力气就快速装好了 OpenClaw。我的首位「虾黄」也就此诞生。
在虾黄诞生之初,我多方调研,给它配置了 Kimi 2.5。我原本以为这应当已经是当时相对比较好用的模型了,毕竟它在小红书之类的平台上也相当火,大家普遍把它当成国产模型里的佼佼者。
但是,随后的一段时间里,我陷入了无尽的 Debug 循环之中。今天不是龙虾把自己修死了,明天就是龙虾完全不遵循我的指令。总之,自从我把小龙虾装进电脑开始,我几乎每天都在修龙虾:理解它为什么又死了,也不理解它为什么不能像网上展示的那些案例一样,逻辑清晰地一步一步向我汇报结果、组织答案。
没有用的虾 与 懂事的 Codex
虽然我现在还在让龙虾给我跑调研任务,但自从我一咬牙订阅了 Codex Plus,并且开始尝试使用 Codex 来修理龙虾之后,我忽然意识到,Codex 相比起龙虾而言,是个多么好用的「工具」,而且它很好地扮演了「工具」的角色。
我以为问题只在 OpenClaw
然而反观 OpenClaw,它最区别于 Codex 这些工具的地方,应该是它可以给自己配置 SOUL,让这个工具具备某种灵魂和风格;它也可以记住用户的画像和偏好,因此理论上会越来越贴合用户;再加上多渠道的接入方式,它就成了一个不需要你必须坐在电脑前面才能指挥的实习生。
但是,灵魂、画像、按照用户想法办事,这些 OpenClaw 的亮点,其实都高度依赖背后的大模型支持。在我的使用场景里,OpenClaw 更像一个完全教不会的实习生:我的每一个指示,它都有犯错的可能;而且你越重复强调,它越像是在说“我听懂了”,但下一次大概率还是照错不误。对一个本来就很在意指令遵循度的人来说,这件事尤其抓狂。
最常见的几个翻车场景,也几乎都发生在这里。
第一,是定时任务。理论上这本来应该是它最像一个“助理”的地方,但现实却经常是它在执行定时任务时自己报错;而当我让它去排查这些错误时,它又会把自己修死,最终演变成“原本只是一个定时任务坏了,后来整个虾都坏了”的局面。
第二,是执行顺序。我给过它很多次非常明确的要求:先告诉我方案,等我确认之后再执行。这个要求对我来说很重要,因为我不喜欢它先斩后奏,更不喜欢它边做边解释。但 OpenClaw 往往做不到这一点,它很容易直接跳过“先汇报方案”这一步,擅自开始行动,或者给出一段看起来像方案、实际已经在执行中的混合输出。
第三,是沟通风格。我一直希望它用短句、分多次、像活人一样和我交流汇报,而不是一开口就是一大段标准 AI 腔。但它在不同模型下面偏偏会朝两个极端狂奔:在 MiniMax 下,它像个完全不懂什么叫“短句”的傻子,我不得不反复提醒;换到 GPT 下面,它又像个极度啰嗦的教授,总想把推理过程、判断依据、总结提纲一股脑灌给你,怎么都排不掉那股非常重的 AI 味。
模型
我从 Kimi 2.5 切换到 MiniMax 2.5,结果几乎没有任何本质上的改变,唯一的不同是,因为 MiniMax 过于量大管饱,我的确不用再担心自己在疯狂骂龙虾的过程中快速烧完所有 Token。
今天,我终于跑通了 OpenClaw 多 Agent 模型的互联工作,终于让主模型可以依照分配任务的模式运行,不再总是出现「我催一句,虾黄往前走一步」或者「虾黄说我下一步就做」,但实际它永远不会做,直到我质问它「你真的在做吗?」这种局面。在看到虾黄顺利地将任务拆分成几个子模块,然后调用不同的 agent 分布执行的时候,我有种热泪盈眶的感觉。
但是,这是假象。因为曾几何时,我的「虾黄 3.0」接上 OpenAI 的 GPT 5.4 时,也曾经给过我这种“终于养成了”的惊喜,但我最终发现它后续也会越来越慢,越来越莫名其妙。甚至到最后,在我一遍遍追问之后,我才逐渐意识到:OpenClaw 事实上并不真正擅长连续计划型任务,它的核心驱动力依然是和用户的对话。一旦这轮对话里的任务执行完成或者执行失败,它就必须先反馈给用户,然后等待下一条指令继续触发。
也就是说,OpenClaw 的本质仍然和它背后的对话型大模型高度绑定。很多时候,它更像一个以对话为触发器的语言模型投递层。事实上,因为偶然在 Discord 上打开了 GPT 的 thinking mode,我甚至能更直观地看到大语言模型是如何与 OpenClaw 交互,并指导 OpenClaw 去模拟一个「人格」进行回复的。
我理解的基本逻辑是:OpenClaw 会把我发出的指示,也就是对话 Prompt,转发给后面的大模型,告诉大模型“user said xxxxx”;然后大模型再告诉它“you should xxxxx and tell the user aaaa”;最后它再把整理过后的反馈发给我。对我而言,表面上像是 OpenClaw 这个“虾”在和我交互,但事实上它很多时候更像一个语料和动作的搬运工。
MiniMax
MiniMax 作为国产的「优秀」模型,真的是胜在量大管饱,在最近的一次排错事件之后,我再一次认定我的 OpenClaw 如此难用的原因之一,肯定就是因为 MiniMax 的异常智障。—— 我今天应当狂喷脏话辱骂它了至少 20 分钟 —— 但遗憾的是它还是没有能在我的辱骂之下正确地找到根因并且修复 Bug。
事情的起因是我在学习了一些安全文章之后,为 OpenClaw 所在的宿主机以及 OpenClaw 本身设置了安全巡检和安全审计规则,并且通过一个 Cron 任务,让龙虾每天早晨自动进行每日的安全巡检,一面我的某一天折腾导致一个非常不安全的东西进入了它的宿主机。然而,这个定时任务自动运行了两天之后,忽然从某一天开始,它不再在我要求的频道里进行任务汇报了。这拉开了长达五天的 debug 之旅。作为 MiniMax 主体的 main session 判断认为,这是 MiniMax 在夜间定时任务时响应超时导致的问题,所以在连续三天的失败时,都建议我换一个时间跑定时任务。 我认为最近 MiniMax 的确有夜间降速的迹象,所以依照它的建议进行了为期三天的辗转腾挪,最终的结论是,三天的定时任务都失败。
最令我崩溃的是,进行定时任务的 debug 之余,OpenClaw 会在一个我完全没有理它的时刻,忽然向我推送定时任务的结论,或者一个历史任务的结论。我让 main 进行原因排查,它的结论是:我再跑一次,然后告诉 user,这是我不小心触发的。 —— 放他的屁。能够得出 58 分它被我唤醒之后的触发任务,导致了 56 分我收到了它发出的消息,这是什么时空折叠理论!
在狂喷了 MiniMax 长达半小时之后,我决定放弃,转向配置了 GPT 5.4 的 coder agent 进行排查,它在短短的 30 秒之内完成了日志读取,并且告知我,这是身处 main agent 下级的 planner agent 在心跳机制唤醒后,认为历史上的 cron 排错配置任务没有完成,因此又一次执行触发了 cron 配置任务,形成安全巡检推送。 —— 多么正确!
「此处省略在 debug 五天没有结果情况下我疯狂辱骂输出 MiniMax 的截图一张」
真希望国产的模型能好好地做做功课,在网上当小镇做题家追莫名其妙的 rank 排名,不如实实在在地拉高用户的体验。
令人舒心的 Codex
在我没有真实切换过模型之前,我压根没有想到龙虾背后的大模型会对它的行为模式有那么大的影响。后来我把 GPT 5.2 接进来之后,很多事情忽然就顺畅了起来。至少此前要费很久才能推进的 debug,现在已经可以通过 OpenClaw 自查完成了。这简直是十足的进步。
看着 GPT 终于能够真正 identify 到问题,并在一定程度上遵循我的指令完成修复,我整个人都清爽了起来。
但是 GPT 也有个非常严重的问题,就是爹味过重。它总是不分场合地想教育你,让你理解它做出决策和建议的全部过程,并且严格按照模型习惯的输出方式来:总结、分项、再总结。曾几何时,我还觉得这套模式是正确的,尤其对于我们这种有信息获取强迫症的人来说。但当它一次性向我灌输超过十五屏的内容时,我整个人都是崩溃的。
特别是在龙虾这种以语言驱动的应用里,它会就我的一个疑问疯狂刷屏,我不得不茫然地在大量页面内容里去找我真正需要的信息和结论。
什么是更好的工具
在实在无法忍受龙虾的愚钝之后,我参考了网上的建议,给它请了一个外援 Codex。我非常庆幸第一次接触到 Codex 给我留下了那么好的印象。我只输出了一个指令,Codex 就自动识别到了我需要的方向,自己查找了 OpenClaw 的官方文档,然后依照官方文档和我的龙虾设置问题,提出了完整的 Audit 意见,并且给出了后续的执行方案建议。
在我以为自己又需要像带龙虾一样,一步一步引导 Codex 去执行任务的时候,我发现它不仅会给自己设置一个分步执行的计划,而且这个计划似乎真的是它自己在主动追踪。我可以在视窗里看到它阶段性的汇报结论,与此同时也能看到它遇到问题后换别的方式继续尝试。
最重要的是,它更像一个“先想清楚再动手”的工具。我不用在 AGENT 里写下繁复的规则,强迫小龙虾记得阶段性汇报;我也不用通过各种设置去开启它所谓的流式输出方式。它的每一步步调,都会相对清楚地摆在你面前。

夫复何求。它不是简单地看到一个问题,就只修这个问题;它还会去看这个问题背后产品或者功能的作用,在修复完问题之后,如果仍然认为这个功能没有真正达成目的,它会继续主动补足结论。
虽然 GPT 的教授味还是没有办法完全去除,但是至少它快速地解决了我的问题。我的龙虾也就这样继续正常地跑了起来。
网站的重构与迁移
在发现了 Codex 的高效作用之后,我果断下载了 VS Code,在 Codex 的从旁协助下,将本站整体进行了迁移。过程中涉及的:
- 从 Wordpress 导出所有的文章,以及 Wordpress 仓库里的所有图片;
- 研究我所有文章当时在 Wordpress 插件下的精心排版安排,并且最开始通过 HTML 的形式在新页面上重建;
- 依照我的需求,将版式的渲染规则用最简单的 Markdown 语法进行渲染;
- 构建滚滚的展示页面,并且自己书写前端动效实现方式。
这些几乎都是 Codex 在我的自然语言指示下完成的。
虽然过程中我还是得不停告知自己的诉求,逐步调整页面实现效果,这同样花了我大量时间。但至少我不用逐篇文章地搬运,也不用逐篇去重构页面和布局。能在四个工作日的晚上加班加点完成整个博客的迁移工作,并且顺带解决我对 Vercel、它的竞品,以及 Astro 网页构建问题的疑惑,我是真的非常感谢 Codex。
虽然这个过程中它还是有不少问题,比如它完全自己设想出来的页面往往要么是很土的光效,要么就是修改得不够精细,但这依然好过我此前不停上网查找插件,然后在写完文章之后苦苦调整。
仍然是没有用的虾
但至少在现阶段,龙虾对我还是没有那么大用处。在我无法把它真正接入工作环境的情况下,它对我而言更像一个高级一点的对话机器人。它能做到的事情,Codex、Claude Code 往往也都能做到,而且做得更让人放心、更方便快捷。
可能现阶段对我来说,龙虾唯一特别有用的场景,就是我躺在床上、但电脑屏幕始终无法熄屏的时候,它可以帮我找到占用电脑运存、阻止电脑熄屏的应用,并按我的要求把这个应用 K.O. 掉。再比如,它也能按照我的要求在网上做一些数据爬取,整理成一个单一的信息来源给我阅读;我心仪的摩托车型号,恰好就是在这个过程中 detour 了解到的。
Codex 还是实打实地给我节约了不少的时间。为我的圈地自萌打下了基础。
亦有收获
虽然龙虾现阶段对我来说谈不上真正好用,但在搭建龙虾、折腾龙虾的过程中,我的确了解到了很多此前完全不会接触到的知识:
- 一个非常结构化的人格构架:赋予人格灵魂的 SOUL,赋予行为准则的 AGENT,给予长期记忆的 MEMORY,以及对于自身认识的 IDENTITY。原来 SOUL 和 IDENTITY 在 AI agent 的世界里也不是一个东西。
- 在我看来无比仿生的记忆构架:短期的记忆存在于同一个 session 的上下文里,中期的记忆存在于每天记录的 memory 库存中,而远期的记忆存在可以通过特殊的指令调取的存档库里。
- 对于法律工作者而言非常超前的差异管理和存档系统:Git。以及 Git 仓库里的 stage、push、pull、commit 这些指令之间的区别。
- 一个清晰的组织结构和分工,以及必要的团队管理能力。
对我这样一个信息焦虑的人而言,折腾龙虾的最终目的或许不是达成一个多么厉害的任务,而是在这个过程中,我居然重新找回了很多热情,找回了面对未知的探索欲望,也找回了在探索过程中对自己的理解。
「弊端就是我的作息完全乱掉了。」