vlm.md
VLM × Agent
实战食谱库
每一篇食谱告诉你:用哪个模型、怎么写 prompt、代码怎么写、踩过哪些坑。 专为在 agent 中集成 VLM 的开发者设计。
分类浏览
最新食谱
图表/表格 进阶
从柱状图中提取数据
让 agent 从报告、仪表盘或幻灯片中的柱状图图片提取数值数据,输出含标签、数值和系列名称的结构化 JSON。
GPT-4o Gemini 1.5 Pro Claude 3.5 Sonnet
多图推理 入门
前后图片对比分析
让 agent 对比两张图片(UI 截图、产品图、文档标注前后)并输出结构化的变更清单。
GPT-4o Gemini 1.5 Pro Claude 3.5 Sonnet
图表/表格 进阶
仪表盘截图数据读取
让 agent 通过截图从 Grafana、DataDog 等仪表盘提取 KPI 数值、告警状态和指标读数,以触发下游动作。
GPT-4o Gemini 1.5 Pro