技术深度2026年4月24日·10 分钟阅读

从纸本到数据管道：我们如何用 Gemini 构建香港 PASP 合约的 OCR 引擎

香港物业市场每年流转数千亿港元交易，而每一宗买卖都依赖一份手写的临时买卖合约（PASP）。MAGO AI 工程团队采用 Gemini 视觉模型，构建了一套生产级 OCR 引擎，把律师行、银行和经纪公司多年来繁琐的人手键入流程彻底自动化。

HK$8 万亿的纸张困局

香港住宅物业市场每年的成交金额约在港币 5,000 亿至 8,000 亿之间。无论是将军澳一间三百万的入门盘，还是山顶一幢三亿的豪宅，每一宗成交都要通过一份叫做"临时买卖合约（PASP，臨時買賣合約）"的文件。

这份 PASP 是交易从口头变成法律事实的关键一环——成交价、买卖双方、成交日期、订金条款以及其他几十条附加条款，全部锁定在这张纸上。下游的律师、银行、按揭经纪、估价师和印花税署都必须在紧迫的时限内读取、核实并据此行动。

但到了 2026 年，大多数地产代理、银行和律师行的工作流程仍然是这样：在经纪行现场签署一份纸本 PASP，然后扫描或手机拍照，把 PDF 电邮给银行、律师和买方的会计师，接着由初级职员把所有字段逐一键入 CRM、按揭系统或案件管理工具，最后再由另一个人拿原件逐行核对。

把这套流程乘上全港每年约六万宗交易的体量，就会发现整个行业每年都在支付一笔数以百万港元计的隐形税——代价是初级员工的工资、错漏修正的时间，以及错过十四天印花税期限的交易。

这正是直到近年为止 AI 还真的解决不了的那类问题。如今可以了。以下是我们的做法。

为什么传统 OCR 对 PASP 束手无策

项目一开始的直觉很简单："OCR 已经是三十年前的老问题了，丢给 Tesseract 或 AWS Textract 就行。"我们试过，结果失败了。原因如下。

真实世界里的一份 PASP，从机器视觉的角度看是一份地狱级文件。它同一字段里就会同时出现繁体中文、英文和数字——买家姓名可能是"陳大文 Chan Tai Man"，旁边就是 A123456(7) 这样的身份证号码。表格是预印的，但实际交易数据全是手写的，经常是经纪人赶时间在写字夹板上潦草填的。

印章、图章（印章）和签名会与文字叠在一起。可选条款的表格里，经纪会用手划上☑或把整段划掉 ✗。影印劣化、手机拍摄时的透视扭曲、荧光灯眩光，以及那个经典的香港特色——传真的扫描件的扫描件——全部都是日常。版式本身也不统一：中原、美联、利嘉阁以及众多独立小行，每家的 PASP 模板都略有不同，就算同一家公司，表格每年也会变。

传统 OCR 流水线——先切出边界框、再识别字符、最后套用模板——在真实输入上大约有 40% 的崩溃率。容易的那 60% 被提取出来了，但因为分不清哪些是失败的，操作员还是得人手检查每一栏。净生产力提升近乎零。

我们需要的是一个能像有经验的楼宇转让文员那样阅读这份文件的系统——它要理解上下文、忽略噪声，还要分得清买家身份证号和物业地段编号，哪怕两者同样是八位数字、在纸上只相距两厘米。

为什么 Gemini 视觉模型胜出

我们用 200 份真实 PASP（经客户同意并匿名处理）做了一次盲测，评估了几个主要的视觉语言模型。评分标准非常直接：每字段准确率、端到端延迟、每份文件成本。

在这三个指标里，Gemini 的视觉能力在真正关键的那一项上胜出——对嘈杂、多语言混用、半手写亚洲语种文件的结构化抽取准确率。原因有几点。

第一，原生多模态定位。我们可以把整份 PASP 图像、一个结构化的 JSON schema 和一条粤语语境系统提示一起发给模型，直接拿回一个强类型的对象——不需要再用正则去后处理一堆文本。模型"看"到文件的同时就"写"出 JSON，意味着它对版面上下文的理解（这串数字挨着"成交價"所以是成交价）从头到尾保留在同一次推理里。

第二，繁体中文手写体识别是真的强。这是决定性的一点。大部分由西方语料训练出来的 OCR 模型，把中文手写体当作边缘案例处理。Gemini 在行书风格的手写姓名和地址上达到的准确率，是我们在其他模型上没见过的，连像"戊/戍/戎"这种在姓氏里容易混淆的字也能分清。

第三，长上下文容忍度。一份 PASP 加附件经常有 8 到 15 页。我们可以把整份文件一次性送进去，让模型自己推理跨页一致性（比如第一页的买家必须与第十二页的签名一致），而不需要我们自己拼接片段。

第四，输出 token 预算够用。完整的结构化对象——有时包含 80 多个字段、多买家多卖家的嵌套数组、可选条款——都能在单次响应里放得下。

这些加在一起，意味着我们能把原本需要四段流水线（检测 → OCR → 分类 → 结构化）的任务，压缩成一次推理调用。

架构：故意做到平淡

系统本身故意做得毫无亮点。当 AI 层已经在担主要工作时，枯燥的基础设施就是好的基础设施。

摄入。文件通过三个通道进来：给律师和银行后台的网页上传入口、给外勤经纪的 WhatsApp Business API 端点，以及给企业客户批量补录历史 PASP 的 SFTP 批次投递。三者最终都会归一成 PDF，落到 Cloud Storage 桶里。

预处理。一个轻量 worker 把 PDF 栅格化成图像、做基础的倾斜校正和对比度归一化，并对多页文件做拆分。我们刻意避免做过度的预处理——现代视觉模型对原始文件的表现，好过那些被过度清理、连细节线索都丢掉的版本。

抽取。核心调用：每一页（或页组）带着一段系统提示被送到 Gemini，提示里定义了 PASP 的 schema、双语字段名，以及一小串边界案例（"如果某条条款被划去，把它的状态设为 struck，不要抽取内容"）。输出是一个严格的 JSON 对象，用 Pydantic 模型做校验。

置信度打分与人工复核。这一步是大部分"AI OCR"初创公司悄悄翻车的地方。我们从不盲目信任单次抽取。每个字段都会产生一个置信度分数，分数来源是模型的自我报告加上一次二次核验调用——让 Gemini 拿自己输出的值去原图上再比对一次。低于某个可调阈值的字段（金额字段通常是 0.92，身份证号通常是 0.95）会路由到一个轻量人工复核界面。复核员可以在同一屏幕上看到文件原图区域和抽取值的并排对比，按一下键就能修正。

输出。结构化数据通过 webhook 流向客户所用的系统——Salesforce、自建 CRM、律师行的案件管理系统，或者银行的按揭发起平台。我们同时生成一份机器可读的 JSON 存档，以及一份记录每个字段级决策的审计日志，供合规使用。

整个栈跑在 Cloud Run 上，状态放 Firestore，密钥由 Secret Manager 做轮换。一份 10 页 PASP 的端到端延迟在 30 秒以内。单份文件成本在港币几毛钱的量级。

这套系统真正解锁的是什么

把它描述成"我们自动化了数据录入"其实低估了它的价值。真正的故事，是一旦 PASP 数据变成结构化、可查询、实时流动的数据，整个行业能多出多少新玩法。

对地产代理来说，每一宗签约完成的交易都立刻变成一项数据资产。成交管线仪表盘在墨水未干时就更新，不再是三天后有人忙完一轮再来补键。佣金对账、成交速度分析、团队业绩报告，再也不是月末的救火演练。

对律师行来说，一位做转让的律师可以在几分钟内完成报价、利益冲突检查和开档，而不是几小时。印花税计算预先填好。PASP 和正式买卖合约之间的不一致会自动被标出来。

对银行和按揭经纪来说，按揭申请流程可以在 PASP 签字的那一刻就启动，而不是等买方自己把交易条款填进申请表。这把放款时间压缩好几天，直接降低银行的管线风险，也让借款人体验更顺畅。

对估价师和测量师来说，可比交易数据库变成装满了经核实的结构化数据，而不是抓取回来的近似值。

这整个生态的综合效应是会复利的那种效率提升。当前三天不再浪费在录入上时，十四天的印花税期限就宽裕得多。

下一步：路线图

我们会在 2026 年第二季之内，与一小批香港的种子律师行和按揭经纪一起滚动上线这套系统。接下来路线图上的几个方向：跨文件对账——自动把 PASP 跟正式买卖合约、土地注册处记录、银行估价报告交叉比对，在纠纷成立之前先把差异抛出来；内地扩张——同一套架构，改用简体中文商品房买卖合同模板重新训练，打开一个比香港大约 50 倍的市场；下游生成式产出——一旦有了干净的结构化数据，我们就能直接自动起草印花税提交件、按揭申请表以及转让核对清单的初稿。

更深一点的押注是：视觉语言模型即将在非结构化的法律和金融文件上，做到八十年代表格软件之于会计那件事——把整整一类人工劳力问题变成软件问题。PASP 只是我们切入这个市场的第一刀。

如果你是在香港执业的律师、银行从业者，或者正在经营物业平台，想试用这套系统，欢迎联系我们。

MAGO AI 为香港的保险、金融服务和法律行业构建生产级 AI 系统。可以透过 info@magoai.hk 联系我们。

博客