所有食谱

18 个食谱

文档理解进阶

从合同图片中提取关键条款

让 agent 从扫描合同中自动提取甲乙方、金额、履约期限、违约条款等核心字段，输出结构化 JSON，对接审批流或风控系统。

Claude 3.5 Sonnet GPT-4o Gemini 1.5 Pro

文档理解进阶

解析医疗检验报告图片

从血常规、生化等检验报告图片中提取指标名称、数值、参考范围和异常标记，结构化输出供健康管理 agent 使用。

GPT-4o Claude 3.5 Sonnet

图表/表格进阶

从柱状图中提取数据

让 agent 从报告、仪表盘或幻灯片中的柱状图图片提取数值数据，输出含标签、数值和系列名称的结构化 JSON。

GPT-4o Gemini 1.5 Pro Claude 3.5 Sonnet

多图推理入门

前后图片对比分析

让 agent 对比两张图片（UI 截图、产品图、文档标注前后）并输出结构化的变更清单。

GPT-4o Gemini 1.5 Pro Claude 3.5 Sonnet

结构化输出进阶

带置信度的结构化输出

在低质量图片（模糊扫描、光线不足）上提取结构化数据时，让模型对每个字段单独报告置信度，系统据此自动标记需要人工审核的字段。

GPT-4o Claude 3.5 Sonnet

图表/表格进阶

仪表盘截图数据读取

让 agent 通过截图从 Grafana、DataDog 等仪表盘提取 KPI 数值、告警状态和指标读数，以触发下游动作。

GPT-4o Gemini 1.5 Pro

Computer Use 入门

错误弹窗识别与自动处理

Agent 执行多步任务时遇到意外错误弹窗，自动识别弹窗类型（可恢复 vs 致命），并决定关闭、重试或上报人工处理。

GPT-4o Claude 3.5 Sonnet

Computer Use 进阶

文件浏览器导航自动化

让 agent 在 Windows Explorer、macOS Finder 或 Linux 文件管理器中自动定位文件、执行移动/重命名/删除等操作，基于窗口视觉状态决策。

Claude 3.5 Sonnet GPT-4o

UI 操控进阶

表单字段检测与自动填写

让 agent 截图识别表单中的所有字段（标签、类型、位置），然后根据提供的数据自动填写，适用于注册、结账、问卷等动态表单。

GPT-4o Claude 3.5 Sonnet

结构化输出进阶

强制 JSON Schema 输出

让 VLM 严格按照预定义 JSON Schema 返回数据，包含字段名、类型和必填字段的强校验，适用于输出对接数据库、API 或 TypeScript 类型的场景。

GPT-4o Claude 3.5 Sonnet Gemini 1.5 Pro

UI 操控入门

网页导航结构解析

让 agent 截图后提取网页的导航菜单结构（顶部导航、侧边栏、面包屑）为树形 JSON，帮助 agent 理解站点地图并规划后续导航步骤。

GPT-4o Claude 3.5 Sonnet Gemini 1.5 Pro

结构化输出高级

嵌套结构数据提取

从包含层级结构的图片（组织架构图、嵌套表格、多层级表单、树形图）中提取完整的嵌套 JSON，保留层级关系。

GPT-4o Claude 3.5 Sonnet

多图推理高级

连续截图动作序列理解

让 agent 接收一组用户会话截图，重建操作步骤并输出结构化的动作序列。

GPT-4o Gemini 1.5 Pro

Computer Use 进阶

屏幕状态理解与下一步决策

Computer-use agent 的核心感知-决策循环：截图后让 VLM 判断当前应用状态、上一步是否成功，并输出下一步操作的 JSON。

Claude 3.5 Sonnet GPT-4o

图表/表格入门

图片表格转结构化 JSON

让 agent 从截图、扫描件或幻灯片中的光栅化表格图片提取结构化数据，输出字典列表或 CSV。

GPT-4o Claude 3.5 Sonnet Gemini 1.5 Pro

多图推理进阶

视觉回归测试

在 CI/CD 流水线中用 VLM 审查前端部署前后的截图，自动标记布局崩溃、样式变化等视觉回归问题。

GPT-4o Claude 3.5 Sonnet

UI 操控进阶

网页 UI 元素定位与点击

让 agent 截图后通过 VLM 识别目标按钮/链接/输入框的坐标，再用 pyautogui 或 Playwright 自动点击，适用于 CSS 选择器不可靠的动态页面。

GPT-4o Claude 3.5 Sonnet

文档理解入门

从发票图片中提取结构化数据

让 agent 自动从扫描发票中提取供应商、金额、日期等字段，输出 JSON。包含真实踩坑记录。

GPT-4o Claude 3.5 Sonnet Gemini 1.5 Pro