18 个食谱
让 agent 从扫描合同中自动提取甲乙方、金额、履约期限、违约条款等核心字段,输出结构化 JSON,对接审批流或风控系统。
从血常规、生化等检验报告图片中提取指标名称、数值、参考范围和异常标记,结构化输出供健康管理 agent 使用。
让 agent 从报告、仪表盘或幻灯片中的柱状图图片提取数值数据,输出含标签、数值和系列名称的结构化 JSON。
让 agent 对比两张图片(UI 截图、产品图、文档标注前后)并输出结构化的变更清单。
在低质量图片(模糊扫描、光线不足)上提取结构化数据时,让模型对每个字段单独报告置信度,系统据此自动标记需要人工审核的字段。
让 agent 通过截图从 Grafana、DataDog 等仪表盘提取 KPI 数值、告警状态和指标读数,以触发下游动作。
Agent 执行多步任务时遇到意外错误弹窗,自动识别弹窗类型(可恢复 vs 致命),并决定关闭、重试或上报人工处理。
让 VLM 严格按照预定义 JSON Schema 返回数据,包含字段名、类型和必填字段的强校验,适用于输出对接数据库、API 或 TypeScript 类型的场景。
让 agent 截图识别表单中的所有字段(标签、类型、位置),然后根据提供的数据自动填写,适用于注册、结账、问卷等动态表单。
让 agent 截图后提取网页的导航菜单结构(顶部导航、侧边栏、面包屑)为树形 JSON,帮助 agent 理解站点地图并规划后续导航步骤。
让 agent 在 Windows Explorer、macOS Finder 或 Linux 文件管理器中自动定位文件、执行移动/重命名/删除等操作,基于窗口视觉状态决策。
从包含层级结构的图片(组织架构图、嵌套表格、多层级表单、树形图)中提取完整的嵌套 JSON,保留层级关系。
Computer-use agent 的核心感知-决策循环:截图后让 VLM 判断当前应用状态、上一步是否成功,并输出下一步操作的 JSON。
让 agent 接收一组用户会话截图,重建操作步骤并输出结构化的动作序列。
让 agent 从截图、扫描件或幻灯片中的光栅化表格图片提取结构化数据,输出字典列表或 CSV。
在 CI/CD 流水线中用 VLM 审查前端部署前后的截图,自动标记布局崩溃、样式变化等视觉回归问题。
让 agent 截图后通过 VLM 识别目标按钮/链接/输入框的坐标,再用 pyautogui 或 Playwright 自动点击,适用于 CSS 选择器不可靠的动态页面。
让 agent 自动从扫描发票中提取供应商、金额、日期等字段,输出 JSON。包含真实踩坑记录。