本地部署 Gemma4 E4B 实战指南:从旧模型迁移到统一多模态AI

迁移背景

2026年4月,我们将本地部署的多个小模型(gemma3:1b、qwen3.5:4b、moondream、Whisper)统一迁移到 Google 的 Gemma4 E4B(4B Effective),实现了单一模型处理图片识别、视频分析和语音识别任务。

环境要求

  • 操作系统: Ubuntu 22.04+ (ARM64 或 x86_64)
  • 内存: 推荐 16GB RAM(模型运行时占用约 10-11GB)
  • 磁盘: 10GB 可用空间(模型文件 9.6GB)
  • 软件: Ollama 0.20.0+

迁移步骤

1. 升级 Ollama 到 0.20+

1# 检查当前版本
2ollama --version
3
4# 升级到最新版本
5curl -fsSL https://ollama.com/install.sh | sh
6
7# 重启服务
8systemctl restart ollama # 或 service ollama restart

2. 卸载旧模型

1ollama rm moondream:latest
2ollama rm gemma3:1b
3ollama rm qwen3.5:4b
4
5# 卸载 Whisper(如果通过 pip 安装)
6pip uninstall -y faster-whisper

3. 拉取 Gemma4 E4B

1ollama pull gemma4:e4b

首次拉取需要下载 9.6GB 模型文件,耗时取决于网络速度。

4. 更新 OpenClaw 配置

编辑 ~/.openclaw/openclaw.json

 1{
 2 "agents": {
 3 "defaults": {
 4 "model": {
 5 "primary": "openrouter/xiaomi/mimo-v2-pro",
 6 "fallbacks": [
 7 "ollama/gemma4:e4b" // ← 仅保留本地 Gemma4
 8 ]
 9 },
10 "models": {
11 "ollama/gemma4:e4b": {
12 "alias": "local-gemma4"
13 }
14 // 移除旧模型配置
15 }
16 }
17 }
18}

验证配置:

1python3 -m json.tool ~/.openclaw/openclaw.json > /dev/null && echo "OK"

重启 Gateway:

1openclaw gateway restart

性能测试

图片识别

使用以下命令测试:

1curl -X POST http://127.0.0.1:11434/api/generate \\
2 -H "Content-Type: application/json" \\
3 -d '{
4 "model": "gemma4:e4b",
5 "prompt": "描述这张图片",
6 "images": [""],
7 "stream": false
8 }'

语音识别

Gemma4 支持音频输入(需转码为适当格式):

 1# 将音频转为 base64
 2base64 -w0 audio.wav
 3
 4# 发送识别请求
 5curl -X POST http://127.0.0.1:11434/api/generate \\
 6 -H "Content-Type: application/json" \\
 7 -d '{
 8 "model": "gemma4:e4b",
 9 "prompt": "转录这段音频",
10 "audio": "",
11 "stream": false
12 }'

ARM64 优化建议

  • 使用 Ollama 0.20+(已针对 ARM64 优化)
  • 确保系统有足够交换空间(swap)避免 OOM
  • 定期清理未使用的模型:ollama ps 查看运行中的,ollama rm 删除

多模态能力展示

任务类型 输入 输出
图像描述 JPEG/PNG 图片 详细场景描述
OCR 文字识别 含文字的图片 提取的文字内容
视频关键帧分析 视频帧(base64) 帧内容描述
语音转文字 音频文件(wav/mp3) 转录文本

常见问题

Q: 内存不足怎么办? A: 启用 swap(4-8GB),或升级服务器内存。

Q: 推理速度慢? A: 首次推理需加载模型,后续会缓存加速。可调整 Ollama 的 num_parallel 参数。

Q: 还想使用云端模型备份? A: 在 fallbacks 中保留多个云端模型,本地模型作为第一 fallback。

总结

通过迁移到 Gemma4 E4B,我们减少了模型复杂度(从4个模型合并为1个),降低了运维成本,同时提升了数据隐私保护水平。新模型在 ARM64 服务器上运行良好,多模态能力满足日常需求。


分类: OpenClaw 教程 标签: Gemma4, Ollama, 本地部署, 多模态, ARM64 SEO描述: 完整指南:将旧小模型迁移到 Gemma4 E4B,包括升级 Ollama、更新 OpenClaw 配置、性能测试与 ARM64 优化建议。