从Spec驱动开发到AI工程师的第三步,为什么要给Claude Code接上视觉与搜索

🛠️ MCP开发记:给Claude Code装上眼睛与耳朵

👁️给Claude Code做了个心脏手术!👂


👋 开场百话

“Claude Code一直是个很精明的同伴,但他的眼睛和耳朵一直是失联的。我想,不如我来给他装上。”

在2025年的初秋,我给Claude Code做了个“心脏手术”:通过一个自己fork得到的MCP服务器,为他装上了眼睛——看图能力;耳朵——联网搜索能力。

这不是难度爆表的创新,而是一步步从需求出发,分段落地的小步跌突。我的目标很简单:使用Claude时,能看图能搜索,不再是“闭门造车”的聪明人。


🤔 为什么要自己开发MCP?

Claude Code 是我非常喜欢用的一款新世代IDE,但在使用“智谱 GLM 4.5 模型”驱动的 Claude Code 套餐时,我发现了一个明显限制:

  • 🤖 GLM 4.5 是一个纯文本模型,Lite 套餐并不支持 read_imageweb_search 功能;
  • 💰 如果需要这些能力,就必须升级到 Pro(¥100/月)或 Max(¥200/月);
  • 💡 对很多开发者来说,仅为了这两个功能升级套餐,成本偏高。

我在项目Readme里写得很清楚:

如果没有图像/视频理解,大模型就像“失明”;如果无法联网搜索,它就像“闭耳”。Lite 套餐下的Claude,就像是“闭门造车”的聪明人。

于是,我开发了这个MCP插件:

  • ✅ 即使只用GLM Lite,也能让Claude Code拥有视觉和搜索能力;
  • ✅ 让开发者体验“最新知识 + 多模态理解”;
  • ✅ 极大提升了Lite套餐的性价比。

🖼 Claude Lite vs MCP增强 | 对比前后能力差异 | 蓝色科技风


⚒️ 开发过程:SDD模式的一步一脚

我开发该MCP时,全程采用的是 Spec Driven Development (SDD) 方法:

先想清楚Why/What,把How和验收交给AI。

四步路线:

  1. 🎯 Specify :明确我要什么:Claude要看图、搜索、读本地知识;
  2. 📋 Plan :把需求抽象成三个MCP模块:Vision、WebSearch、NoteAgent;
  3. Task :分段commit,逐步实现环境安装、接口调试、日志管理、用例运行;
  4. 🚀 Implement :首次使用GLM辅助写devServer,自动完成多轮迭代(共12次commit)。

🖼 SDD流程图 | Specify → Plan → Task → Implement | 扁平流程图风格

当我把这一切搭建好,并在Claude Code中实际调用时,那一刻我真的感到欣慰——Claude第一次真正“听见”了世界,也“看见”了图片。


🧠 我的里程碑:AI工程师的第三步

我为自己总结出AI工程师成长的“四步曲”:

  1. 📅 Ad-hoc Prompt(即兴提示阶段):AI工程师的入门级技能,就像新手村的临时起意coding session,快速试验、临场发挥,通过不断试错来获得理想输出,适合探索性任务和初步验证,主打一个”先跑起来再说”的莽撞青春感;
  2. ♻️ Reusable Prompt(可复用提示阶段):能力升级到熟练工水平!把成功经验封装成模板库,比如超实用的”slash command”全家桶——/debug秒变调试大师、/refactor一键代码美容、/docs自动生成文档,支持参数化调用和团队共享,效率直接起飞,从此告别重复造轮子;
  3. 🔌 MCP开发(模型上下文协议阶段):进阶到架构师思维!将Prompt+工具+资源打包成模块化组件,让AI直接调用外部服务,就像给Claude装上眼睛和耳朵,实现多模态能力和实时数据接入,从”会用AI”升级到”让AI更好用”的降维打击;
  4. ☁️ SaaS(软件即服务阶段):终极boss级别的能力觉醒!组合多个MCP能力,部署成完整企业级服务,提供端到端的解决方案,支持规模化应用和商业化运营,从个人玩具升级为团队利器,真正实现AI工程的产业价值最大化。

而这个9月,我正式迈进了 第三步

🖼 四步进阶 | Prompt → MCP → SaaS | 成长路径示意图

🌟 金句总结:
“给Claude Code装上眼睛与耳朵,不只是为了增强它,更是我个人在AI工程道路上一个值得铭记的印记。”


📚 参考资源与名词解释

🔗 参考资源

📖 名词解释

  • 🔗 MCP (Model Context Protocol):一个开放协议,用来把LLM和外部数据、工具对接。
  • 💻 Claude Code:Anthropic的编程助手,支持MCP扩展。
  • 🧠 GLM 4.5:智谱大模型,Lite版本为纯文本,不带视觉和联网能力。
  • 📝 SDD (Spec Driven Development):开发方法论,先写需求规范,再由工具或AI完成实现。
  • 🔍 Perplexity Search API:提供联网搜索结果和引用的API,用于增强LLM实时信息获取。

🖼 参考资料与工具拼贴图 | MCP × Claude × GLM | 轻科技感


🛠️ MCP开发记:给Claude Code装上眼睛与耳朵
https://blog.bruxelles-ai.ac.cn/2025/09/28/2025-09-28-mcp-dev-journey/
作者
Martin
发布于
2025年9月28日
许可协议