Gemma 4 多模態應用實戰：圖片理解、影片分析、語音辨識一次搞定

4/6/202619 min 分鐘閱讀

#Gemma 4#多模態#圖片理解#影片分析#語音辨識#OCR#VLM#AI 應用#電腦視覺#語音 AI

Gemma 4 多模態應用實戰:圖片理解、影片分析、語音辨識一次搞定

Gemma 4 多模態能力概覽：圖片、影片、音訊三合一

TL;DR： Gemma 4 全系列四款模型都支援圖片和影片輸入，E2B 和 E4B 額外支援音訊。圖片理解支援可變解析度和長寬比，OCR 和圖表分析表現優異；影片最長 60 秒（1 fps）；音訊最長 30 秒，每秒消耗 25 tokens。搭配 Apache 2.0 授權，這是目前最適合企業部署的開源多模態模型。

一個模型能同時看懂圖片、分析影片、聽懂語音——還是開源的？

半年前這還是天方夜譚。但 Gemma 4 做到了。Google DeepMind 在 2026 年 4 月發布的這個模型家族，把多模態能力從旗艦級的閉源 API 帶到了開源世界。而且不是玩具等級的「能跑就好」，是真正能用在生產環境的水準。

我在過去一週實測了 Gemma 4 的各種多模態功能。這篇文章會把我的實戰經驗整理出來：哪些模型支援什麼能力、程式碼怎麼寫、實際效果如何，以及企業場景怎麼用。

想快速導入多模態 AI 到你的產品？預約免費 AI 諮詢，讓我們幫你規劃最適合的方案。

如果你還不了解 Gemma 4 的基本規格和定位，建議先閱讀 Gemma 4 完整指南。

Gemma 4 的多模態能力：哪些模型支援什麼

先搞清楚一件事：不是所有 Gemma 4 模型都支援所有模態。選錯模型，你的程式碼直接報錯。

以下是完整的模型 × 模態對照表：

模型	參數量	文字	圖片	影片	音訊	適用場景
E2B	~2B	✅	✅	✅	✅	手機、邊緣裝置
E4B	~4B	✅	✅	✅	✅	手機、嵌入式系統
26B MoE	26B（4B 活躍）	✅	✅	✅	❌	消費級 GPU
31B Dense	31B	✅	✅	✅	❌	工作站、伺服器

關鍵發現：

圖片：全部四款模型都支援，且支援可變長寬比和可變解析度
影片：全部四款模型都支援，最長 60 秒，以 1 fps 擷取畫面
音訊：只有 E2B 和 E4B 支援，最長 30 秒，每秒消耗 25 tokens
視覺 token 預算：可配置，高預算保留更多視覺細節（適合 OCR），低預算換取更快推理速度

這個設計很聰明。大模型專注在視覺和文字的深度理解，小模型則把音訊塞進來，讓邊緣裝置也能做語音互動。

圖片理解實戰：OCR、圖表分析、場景描述

AI 進行文件 OCR 與圖表理解

圖片理解是 Gemma 4 多模態能力中最成熟的部分。新版視覺編碼器支援原生長寬比（native aspect ratio），不會像舊模型那樣把圖片壓成正方形再處理。這對 OCR 和文件理解來說是巨大的改善。

支援的圖片任務

Gemma 4 在圖片理解方面支援的任務相當全面：

OCR（光學字元辨識）：包含多語言 OCR 和手寫辨識
圖表分析：讀取長條圖、折線圖、圓餅圖中的數據
文件解析：PDF、發票、表格的結構化資訊擷取
場景描述：圖片內容的自然語言描述
物件偵測：辨識圖片中的物件並標註位置
UI 理解：分析螢幕截圖中的介面元素

程式碼範例：圖片 OCR 與分析

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_API_KEY")

# 讀取本地圖片
with open("invoice.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents=[
        types.Content(
            parts=[
                types.Part(
                    inline_data=types.Blob(
                        mime_type="image/png",
                        data=base64.b64decode(image_data)
                    )
                ),
                types.Part(text="請擷取這張發票中的所有欄位，以 JSON 格式回傳。包含：發票號碼、日期、買方、賣方、品項明細、金額。")
            ]
        )
    ]
)

print(response.text)

視覺 token 預算的實際影響

Gemma 4 的一個獨特功能是可配置的視覺 token 預算。這控制了圖片被轉換成多少 tokens：

高預算：保留更多視覺細節，適合 OCR、小字辨識、文件解析
低預算：更快的推理速度，適合場景描述、物件分類等不需要精細視覺的任務

實際測試中，OCR 任務使用高 token 預算的準確率比低預算提升了約 15-20%。如果你的應用場景是文件處理，別省這個計算資源。

與 GPT-4o 的比較

在 MMMU Pro 視覺理解測試中，Gemma 4 31B 拿到 76.9%，MATH-Vision 拿到 85.6%。這在開源模型中是最高的成績。

不過說句公道話，在需要深度視覺推理的任務上——例如理解複雜圖表、解讀模糊的視覺排版、跨多張圖片做綜合分析——GPT-4o 和 Gemini 等閉源模型仍然更可靠。Gemma 4 的優勢在於：它是開源的、可以本地部署、不需要把資料傳到第三方 API。

需要建立圖片辨識系統？聯絡我們，我們有豐富的電腦視覺系統開發經驗。

影片分析實戰：60 秒影片摘要與理解

影片理解是 Gemma 4 的另一大亮點。所有四款模型都支援影片輸入，最長可處理 60 秒的影片，以每秒 1 幀（1 fps）的速率擷取畫面進行分析。

影片輸入方式

Gemma 4 處理影片的方式是把影片拆成一系列靜態畫面（frames），然後對這些畫面做時序推理。你有兩種方式把影片送進模型：

方式一：直接傳入影片檔

import base64

# 讀取影片檔（支援 mp4、avi、mov 等格式）
with open("product_demo.mp4", "rb") as f:
    video_data = base64.b64encode(f.read()).decode("utf-8")

response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents=[
        types.Content(
            parts=[
                types.Part(
                    inline_data=types.Blob(
                        mime_type="video/mp4",
                        data=base64.b64decode(video_data)
                    )
                ),
                types.Part(text="請摘要這段影片的內容，包含：主要事件、出現的人物或物件、以及關鍵時間點。")
            ]
        )
    ]
)

print(response.text)

方式二：手動擷取 frames 後傳入

import cv2
import base64

def extract_frames(video_path, fps=1):
    """從影片中以指定 fps 擷取畫面"""
    cap = cv2.VideoCapture(video_path)
    original_fps = cap.get(cv2.CAP_PROP_FPS)
    frame_interval = int(original_fps / fps)

    frames = []
    frame_count = 0

    while cap.isOpened():
        ret, frame = cap.read()
        if not ret:
            break
        if frame_count % frame_interval == 0:
            _, buffer = cv2.imencode('.jpg', frame)
            frames.append(base64.b64encode(buffer).decode('utf-8'))
        frame_count += 1

    cap.release()
    return frames[:60]  # 最多 60 frames（60 秒 @1fps）

frames = extract_frames("surveillance.mp4", fps=1)

# 將每個 frame 作為獨立的圖片 Part 傳入
parts = []
for frame_data in frames:
    parts.append(
        types.Part(
            inline_data=types.Blob(
                mime_type="image/jpeg",
                data=base64.b64decode(frame_data)
            )
        )
    )
parts.append(types.Part(text="分析這段監控畫面，是否有任何異常行為？"))

response = client.models.generate_content(
    model="gemma-4-26b-a4b-it",
    contents=[types.Content(parts=parts)]
)

影片分析的實際應用

60 秒聽起來不長，但對很多場景已經足夠：

產品展示摘要：把 60 秒的產品 demo 影片轉成文字描述
監控影像分析：偵測異常行為或特定事件
教學影片索引：為短影片生成搜尋摘要
品質檢驗：分析生產線上的產品影像序列

如果你的影片超過 60 秒，可以自己做分段處理——把長影片切成多個 60 秒片段，分別送進模型分析，最後再彙整結果。

語音辨識與翻譯：E2B/E4B 的音訊處理能力

音訊處理是 Gemma 4 的獨特賣點之一。目前只有 E2B 和 E4B 這兩款小模型支援音訊輸入，但這正好對應了音訊處理最常見的部署場景：手機和邊緣裝置。

音訊規格

最大長度：30 秒
Token 消耗：每秒音訊 = 25 tokens（30 秒 = 750 tokens）
處理方式：單聲道
支援語言：多語言語音辨識和翻譯

語音辨識（ASR）範例

import base64

# 讀取音訊檔
with open("meeting_clip.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode("utf-8")

response = client.models.generate_content(
    model="gemma-4-e4b-it",
    contents=[
        types.Content(
            parts=[
                types.Part(
                    inline_data=types.Blob(
                        mime_type="audio/wav",
                        data=base64.b64decode(audio_data)
                    )
                ),
                types.Part(text="請將這段語音轉錄為文字。")
            ]
        )
    ]
)

print(response.text)

語音翻譯範例

response = client.models.generate_content(
    model="gemma-4-e4b-it",
    contents=[
        types.Content(
            parts=[
                types.Part(
                    inline_data=types.Blob(
                        mime_type="audio/wav",
                        data=base64.b64decode(audio_data)
                    )
                ),
                types.Part(text="請將這段日語語音翻譯成繁體中文。")
            ]
        )
    ]
)

與 Whisper 的比較

你可能會問：既然 OpenAI 的 Whisper 已經這麼成熟了，為什麼要用 Gemma 4？

幾個關鍵差異：

比較項目	Gemma 4 E4B	Whisper Large-v3
模型類型	多模態 LLM（文字+圖片+影片+音訊）	純語音模型
音訊長度	30 秒	無限制（分段處理）
授權	Apache 2.0	MIT
額外能力	可同時理解語音+圖片，做跨模態推理	僅限語音轉文字/翻譯
裝置部署	手機可跑	需要較多資源
上下文理解	可利用對話上下文提升辨識準確度	每段獨立處理

Gemma 4 的優勢不在於取代 Whisper，而在於它能同時處理多種模態。想像一個客服場景：用戶同時傳了一張產品照片和一段語音描述問題。Gemma 4 E4B 可以用一個模型同時理解兩者，而不需要串接兩個不同的模型。

30 秒的限制確實是個瓶頸。如果你需要處理長時間的語音——會議錄音、podcast、電話客服——Whisper 仍然是更好的選擇。但對於短語音指令、語音筆記、即時翻譯這類場景，Gemma 4 的多模態整合能力是 Whisper 沒有的。

多模態 Agent 應用場景

Gemma 4 企業多模態應用場景

Gemma 4 的原生 Function Calling 支援，加上多模態理解能力，讓它特別適合建構自主 Agent。以下是四個已經被驗證可行的企業應用場景。

1. 客服圖片辨識

用戶拍照上傳產品問題，Gemma 4 自動辨識產品型號、損壞類型，然後呼叫 CRM API 建立工單並派給對應的技術團隊。

整個流程不需要人工介入。模型看到圖片後，用 Function Calling 查詢產品資料庫、比對保固狀態、生成回覆。E4B 就能處理，部署在客服系統的邊緣伺服器上延遲極低。

2. 文件自動化

發票、收據、合約——企業每天處理的紙本文件數量驚人。Gemma 4 的 OCR 加上文件結構理解，可以自動擷取關鍵欄位、分類文件類型、觸發後續的審批流程。

我實測過用 Gemma 4 31B 處理中文發票，欄位擷取準確率超過 95%。英文文件更高。搭配 Vertex AI 的批次處理 API，每天處理幾千張發票完全不是問題。

3. 監控影像分析

工廠、倉庫、零售門市——監控影像 24 小時不停產生。Gemma 4 可以分析這些影像，偵測異常行為（例如安全帽未戴、通道堵塞）並即時告警。

26B MoE 版本在這個場景特別合適：推理速度夠快，視覺理解能力也夠強，而且活躍參數只有 4B，單張消費級 GPU 就能跑。

4. 品質檢驗

製造業的產品檢驗傳統上需要大量人力。Gemma 4 可以分析產品照片，偵測表面瑕疵、尺寸偏差、顏色異常。搭配工業相機和邊緣運算裝置，實現產線上的即時品質控管。

E2B 的超小體積讓它可以直接部署在工廠的邊緣裝置上，不需要雲端往返。對延遲敏感的工業場景來說，這是關鍵優勢。

想了解完整的企業導入策略？請參閱 Gemma 4 企業導入指南，涵蓋從評估到上線的完整流程。

更多關於 API 串接的技術細節，可以參考 Gemma 4 API 串接教學。

常見問題

Gemma 4 的圖片理解可以處理中文 OCR 嗎？

可以。Gemma 4 支援多語言 OCR，包含繁體中文、簡體中文、日文、韓文等。實測中文 OCR 的準確率已經相當高，但手寫辨識的品質取決於字跡清晰度。建議使用高視覺 token 預算來處理中文文件，因為中文字體的筆畫比英文更複雜，需要更多視覺細節。

影片分析只有 60 秒不夠用怎麼辦？

60 秒是單次請求的上限。實務上你可以把長影片切成多個 60 秒片段，分別送進模型分析，然後用文字模型彙整各片段的分析結果。雖然多了一步，但對大多數應用場景來說是可行的。另外，60 秒 @1fps 其實是 60 張圖片，資訊量已經不少了。

E2B/E4B 的音訊品質比 Whisper 好嗎？

這不是同一個維度的比較。Whisper 是專門為語音辨識打造的模型，在長音訊、多語言混雜等場景表現更好。Gemma 4 E2B/E4B 的優勢是多模態整合——同時處理語音和圖片、利用對話上下文提升辨識準確度。如果你只需要語音轉文字，Whisper 可能更適合；如果你需要一個模型同時處理多種輸入，Gemma 4 是更好的選擇。

哪個模型最適合做多模態 Agent？

取決於你的部署環境。如果是雲端伺服器，26B MoE 是最佳性價比選擇——它的視覺理解能力接近 31B，但推理成本低很多。如果是邊緣裝置或手機，E4B 是唯一的合理選擇，它支援所有四種模態而且夠小。需要最高精度？用 31B Dense，但要準備好足夠的 GPU 記憶體。

結語：開源多模態 AI 的新標竿

Gemma 4 把多模態能力帶進了開源世界，而且品質不打折。圖片理解能力在開源模型中領先，影片和音訊支援更是獨家特色。搭配 Apache 2.0 授權和從 2B 到 31B 的完整尺寸選擇，不管你是想在手機上做語音助手，還是在伺服器上建文件處理系統，都有合適的選項。

當然，它還是有限制——影片 60 秒、音訊 30 秒、深度視覺推理不及閉源模型。但對大多數企業應用場景來說，這些限制完全可以接受。

準備好導入多模態 AI 了嗎？預約免費技術諮詢，我們根據你的具體需求，推薦最合適的模型和部署方案。

延伸閱讀：

需要專業的雲端建議？

無論您正在評估雲平台、優化現有架構，或尋找節費方案，我們都能提供協助

預約免費諮詢

AI 開發工具