vlm.md
VLM × Agent
实战食谱库
每一篇食谱告诉你:用哪个模型、怎么写 prompt、代码怎么写、踩过哪些坑。 专为在 agent 中集成 VLM 的开发者设计。
分类浏览
最新食谱
文档理解 进阶
从合同图片中提取关键条款
让 agent 从扫描合同中自动提取甲乙方、金额、履约期限、违约条款等核心字段,输出结构化 JSON,对接审批流或风控系统。
Claude 3.5 Sonnet GPT-4o Gemini 1.5 Pro
文档理解 进阶
解析医疗检验报告图片
从血常规、生化等检验报告图片中提取指标名称、数值、参考范围和异常标记,结构化输出供健康管理 agent 使用。
GPT-4o Claude 3.5 Sonnet
图表/表格 进阶
从柱状图中提取数据
让 agent 从报告、仪表盘或幻灯片中的柱状图图片提取数值数据,输出含标签、数值和系列名称的结构化 JSON。
GPT-4o Gemini 1.5 Pro Claude 3.5 Sonnet