紙本終結:MAGO AI 如何以 Gemini 視覺模型重構香港臨約處理流程

紙本終結:MAGO AI 如何以 Gemini 視覺模型重構香港臨約處理流程

MAGO AI Engineering Team

MAGO AI Engineering Team

2026年4月24日

返回部落格

八萬億港元的紙張稅

香港住宅物業市場每年的成交金額約在港幣 5,000 億至 8,000 億之間。由將軍澳一間三百萬的上車盤,到山頂一幢三億的豪宅,每一宗成交都離不開一份叫做《臨時買賣合約》(PASP,臨時買賣合約)的文件。

這份 PASP 是交易由口頭承諾正式變成法律事實的一刻——成交價、買賣雙方、成交日期、訂金條款連同其他十幾條附加條款,全部鎖定在這張紙上。下游的律師樓、銀行、按揭經紀、估價師以至印花稅署,全部要在極緊迫的時限內消化、核實,並據此採取行動。

然而時至 2026 年,大多數代理行、銀行、律師樓的日常流程仍然是這樣:先在舖頭簽下一份紙本臨約,繼而掃描或以手機拍下,把 PDF 電郵給按揭部、律師以至買家的會計師,然後由初級同事逐一把當中的每個欄位打入 CRM、按揭系統或案件管理工具,再由另一個人拿著原件逐格核對。

把這套流程乘上全港每年大約六萬宗成交,就會發現整個行業每年都要支付一筆以百萬港元計的隱形稅——代價是初級員工的薪金、修改錯漏的工時,以及錯過十四日加蓋印花限期的交易。

這類問題,直到近年為止,都是 AI 真的做不到的。如今可以了。以下是我們的做法。

八萬億港元的紙張稅

為甚麼「直接用 OCR」行不通

項目啟動時的第一個直覺很簡單:「OCR 都是三十年前的舊問題,把 Tesseract 或 AWS Textract 丟上去就行。」我們試過,結果失敗收場,以下是原因。

一份真實的 PASP,從電腦視覺的角度看,是一份地獄級文件。同一個欄位內會同時出現繁體中文、英文和數字——買家名有可能是「陳大文 Chan Tai Man」,旁邊就是 A123456(7) 這類身份證號碼。表格是預印的,但實際交易資料全部是手寫,通常是代理趕時間在寫字夾板上匆匆填下。

印章、公司 chop(印章)及簽名會疊在文字欄上。可選條款表格裡面,代理會用手剔☑或把整段劃走 ✗。影印退化、手機拍照歪斜、光管反光,再加上香港獨有的「傳真件的掃描的掃描」,全都是日常。版式本身也不統一:中原、美聯、利嘉閣,以及一眾小型獨立代理行,每一間的 PASP 範本都略有差異,即使是同一間代理行,表格每年也會更新。

傳統 OCR 流水線——先做邊框偵測、再做字符識別、最後做範本匹配——在真實輸入上面大約有 40% 會崩潰。容易的那 60% 抽取得到,但操作員無從得知是哪 40% 失敗了,所以依然要逐個欄位核對。淨生產力提升接近零。

我們需要的是一個能像資深轉讓文員般閱讀文件的系統——要讀得出上下文、過濾得掉雜訊,還要分得出買家身份證號碼和物業地段編號,即使兩者同樣是八位數字、在紙上只相隔兩厘米也不會混淆。

為甚麼最後選擇 Gemini Vision

我們以 200 份真實 PASP(經客戶同意並匿名處理)做了一次盲測,對幾個主流視覺語言模型進行評分。評分準則非常直接:每欄位準確率、端到端延遲、每份文件成本。

在這三個指標上,Gemini 的視覺能力在真正關鍵的那一項上勝出——就是對嘈雜、多語言夾雜、半手寫的亞洲語種文件的結構化抽取準確率。原因有幾個。

其一,原生多模態對齊。我們可以把整份 PASP 圖像連同一個結構化 JSON schema 以及一段粵語語境的系統提示一次過傳送給模型,直接拿回一個強類型的物件——無需再用正則去後處理一堆文字。模型「看」文件的同時就「寫」出 JSON,意味著它對版面上下文的理解(這串數字貼著「成交價」所以就是成交價)在整個推理過程中完整保留。

其二,繁體中文手寫識別確實到位。這一點是勝負手。大部分由西方語料訓練出來的 OCR 模型,把中文手寫當作長尾案例處理。Gemini 在行書風格的手寫姓名和地址上做出的準確率,我們在其他模型身上沒見過,就連「戊/戍/戎」這類在姓氏裡容易混淆的字,都能分得清楚。

其三,長上下文容忍度。一份 PASP 加上附件通常有 8 至 15 頁。我們可以一次過把整份文件送入模型,讓它自行推理跨頁一致性(例如第一頁的買家必須與第十二頁的簽名一致),而不需要我們自己拼接片段。

其四,輸出 token 預算充裕。一個完整的結構化物件——包含 80 多個欄位、多買多賣的巢狀陣列、以及可選條款——全都可以在單次回應裡放得下。

把這幾點加在一起,我們便把原本需要四階段流水線(偵測 → OCR → 分類 → 結構化)的任務,壓縮成一次推理呼叫。

架構:刻意做到不搶鏡

系統本身刻意做得毫無亮點。當 AI 層已經在擔大樑,基建愈樸素愈好。

文件接入。文件通過三個通道進來:給律師行和銀行後台的網頁上載入口、給外勤代理的 WhatsApp Business API 端點,以及給企業客戶批量補錄歷史臨約的 SFTP 批次投放。三個通道最終都會統一成 PDF,落入 Cloud Storage 儲存桶。

預處理。一個輕量 worker 會把 PDF 光柵化成圖像、做基本的歪斜校正和對比度歸一化,並對多頁文件做拆分。我們刻意避免過度的預處理——現代視覺模型對原始檔案的表現,比對經過度清理、連細節線索都抹走的版本要好。

抽取。核心呼叫:每一頁(或頁組)連同一段系統提示被送到 Gemini,提示裡定義了 PASP 的 schema、雙語欄位名,以及一小段邊界案例(「若某條款被劃走,將其狀態設為 struck,不要抽取內容」)。輸出是一個嚴格的 JSON 物件,以 Pydantic 模型作驗證。

信心評分與人工把關。這一步是大多數所謂「AI OCR」初創公司默默翻車的地方。我們從不盲目信任單次抽取。每個欄位都會生成一個信心分數,分數來源是模型自我報告加上一次二次核驗呼叫——讓 Gemini 拿自己輸出的值回去原圖做二次比對。低於可調閾值的欄位(金額欄位一般是 0.92,身份證欄位一般是 0.95)會被路由到一個輕量人工覆核介面。覆核員可以在同一螢幕看到原圖區域與抽取值的並排比對,按一下鍵便能修正。

輸出。結構化資料經由 webhook 流向客戶使用的系統——Salesforce、自建 CRM、律師樓的案件管理系統、或銀行按揭發起平台。我們同時會產生一份機器可讀的 JSON 存檔,以及一份記錄每個欄位決策的稽核日誌,供合規使用。

整套技術棧跑在 Cloud Run 上,狀態用 Firestore,金鑰由 Secret Manager 做輪換。一份 10 頁的 PASP 端到端延遲低於 30 秒。每份文件成本在幾毛港元的量級。

這套系統對行業真正的意義

把它描述成「我們自動化了數據輸入」其實低估了它的價值。真正的故事,是當 PASP 資料變成結構化、可查詢、實時流動的資料之後,整個行業會多出多少新玩法。

對地產代理而言,每一宗落成的交易即時變成一項資料資產。成交管線儀表板在墨水未乾時就已更新,而不是三日之後有人抽空再補鍵。佣金對帳、成交速度分析、團隊業績報告,不再是月尾的救火操作。

對律師樓而言,一位做轉讓的律師可以在幾分鐘內完成報價、利益衝突檢查以及開檔,而不是幾個鐘頭。印花稅計算預先填好。臨約與正式買賣合約之間的不一致會自動被標示出來。

對銀行及按揭經紀而言,按揭申請流程可以在臨約簽字的一刻就啟動,而不是等買家自己把交易條款手動填入申請表。這把放款時間壓縮幾天,直接降低銀行的管線風險,也讓借款人體驗更順暢。

對估價師和測量師而言,可比交易資料庫會被填滿經核實的結構化資料,而不是從外部抓回來的近似值。

整個生態的綜合效應,是那種會複利的效率提升。當最初三日不再燒在輸入工序上面,十四日的印花限期便會寬裕得多。

這套系統對行業真正的意義

下一步:我們的路線圖

我們會在 2026 年第二季之內,與一小批香港的種子合作律師樓和按揭經紀一同滾動上線這套系統。路線圖下一步的幾個重點:跨文件對帳——自動把臨約與正式買賣合約、土地註冊處紀錄、銀行估價報告交叉比對,在糾紛成立之前先把差異拋出來;內地市場擴張——同一套架構,改用簡體中文商品房買賣合同範本重新訓練,面向一個比香港大約大 50 倍的市場;生成式下游產出——一旦擁有乾淨的結構化資料,我們便可以直接自動起草印花稅呈交件、按揭申請表,以及轉讓核對清單的初稿。

更深一層的賭注是:視覺語言模型即將在非結構化的法律及金融文件上,做到八十年代試算表之於會計所做過的事——把一整類人工勞力問題,變成軟件問題。PASP 只是我們切入這個市場的第一刀。

若您是在香港執業的律師、銀行從業者或正在營運物業平台,有興趣試用這套系統,歡迎聯絡我們。

MAGO AI 為香港的保險、金融服務及法律行業建構生產級 AI 系統。歡迎透過 info@magoai.hk 與我們聯絡。