本地部署 Gemma4 E4B 实战指南:从旧模型迁移到统一多模态AI
迁移背景
2026年4月,我们将本地部署的多个小模型(gemma3:1b、qwen3.5:4b、moondream、Whisper)统一迁移到 Google 的 Gemma4 E4B(4B Effective),实现了单一模型处理图片识别、视频分析和语音识别任务。
环境要求
- 操作系统: Ubuntu 22.04+ (ARM64 或 x86_64)
- 内存: 推荐 16GB RAM(模型运行时占用约 10-11GB)
- 磁盘: 10GB 可用空间(模型文件 9.6GB)
- 软件: Ollama 0.20.0+
迁移步骤
1. 升级 Ollama 到 0.20+
1# 检查当前版本
2ollama --version
3
4# 升级到最新版本
5curl -fsSL https://ollama.com/install.sh | sh
6
7# 重启服务
8systemctl restart ollama # 或 service ollama restart
2. 卸载旧模型
1ollama rm moondream:latest
2ollama rm gemma3:1b
3ollama rm qwen3.5:4b
4
5# 卸载 Whisper(如果通过 pip 安装)
6pip uninstall -y faster-whisper
3. 拉取 Gemma4 E4B
1ollama pull gemma4:e4b
首次拉取需要下载 9.6GB 模型文件,耗时取决于网络速度。
4. 更新 OpenClaw 配置
编辑 ~/.openclaw/openclaw.json:
1{
2 "agents": {
3 "defaults": {
4 "model": {
5 "primary": "openrouter/xiaomi/mimo-v2-pro",
6 "fallbacks": [
7 "ollama/gemma4:e4b" // ← 仅保留本地 Gemma4
8 ]
9 },
10 "models": {
11 "ollama/gemma4:e4b": {
12 "alias": "local-gemma4"
13 }
14 // 移除旧模型配置
15 }
16 }
17 }
18}
验证配置:
1python3 -m json.tool ~/.openclaw/openclaw.json > /dev/null && echo "OK"
重启 Gateway:
1openclaw gateway restart
性能测试
图片识别
使用以下命令测试:
1curl -X POST http://127.0.0.1:11434/api/generate \\
2 -H "Content-Type: application/json" \\
3 -d '{
4 "model": "gemma4:e4b",
5 "prompt": "描述这张图片",
6 "images": [""],
7 "stream": false
8 }'
语音识别
Gemma4 支持音频输入(需转码为适当格式):
1# 将音频转为 base64
2base64 -w0 audio.wav
3
4# 发送识别请求
5curl -X POST http://127.0.0.1:11434/api/generate \\
6 -H "Content-Type: application/json" \\
7 -d '{
8 "model": "gemma4:e4b",
9 "prompt": "转录这段音频",
10 "audio": "",
11 "stream": false
12 }'
ARM64 优化建议
- 使用 Ollama 0.20+(已针对 ARM64 优化)
- 确保系统有足够交换空间(swap)避免 OOM
- 定期清理未使用的模型:
ollama ps查看运行中的,ollama rm删除
多模态能力展示
| 任务类型 | 输入 | 输出 |
|---|---|---|
| 图像描述 | JPEG/PNG 图片 | 详细场景描述 |
| OCR 文字识别 | 含文字的图片 | 提取的文字内容 |
| 视频关键帧分析 | 视频帧(base64) | 帧内容描述 |
| 语音转文字 | 音频文件(wav/mp3) | 转录文本 |
常见问题
Q: 内存不足怎么办? A: 启用 swap(4-8GB),或升级服务器内存。
Q: 推理速度慢?
A: 首次推理需加载模型,后续会缓存加速。可调整 Ollama 的 num_parallel 参数。
Q: 还想使用云端模型备份? A: 在 fallbacks 中保留多个云端模型,本地模型作为第一 fallback。
总结
通过迁移到 Gemma4 E4B,我们减少了模型复杂度(从4个模型合并为1个),降低了运维成本,同时提升了数据隐私保护水平。新模型在 ARM64 服务器上运行良好,多模态能力满足日常需求。
分类: OpenClaw 教程 标签: Gemma4, Ollama, 本地部署, 多模态, ARM64 SEO描述: 完整指南:将旧小模型迁移到 Gemma4 E4B,包括升级 Ollama、更新 OpenClaw 配置、性能测试与 ARM64 优化建议。