本地部署 Gemma 4
本地部署 Gemma 4
前言
本文将介绍如何使用 llama.cpp 在本地部署 Gemma 4 模型。通过使用量化技术,你可以在拥有一定显存的硬件上流畅运行高性能的开源模型。
1. 准备工作
模型下载
下载经过量化的 Gemma 4 模型文件(GGUF 格式)。
推荐模型: gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-IQ4_XS.gguf
硬件建议: 运行该版本建议至少拥有 16GB 显存。
下载 llama.cpp
访问 llama.cpp Releases 下载适用于 Windows 的二进制文件。
提示: 建议下载 vulkan 版本,它可以兼容包括集成显卡在内的多种硬件架构。
安装必要依赖
如果运行 llama.cpp 时提示缺失 DLL,请安装最新的 Visual C++ Redistributable:
Visual C++ 2015-2022 Redistributable
2. 快速启动
我们将使用 PowerShell 脚本来简化启动流程。
创建启动脚本
在你的模型目录下创建一个名为 start.ps1 的文件,并将以下内容粘贴进去:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 设置编码为 UTF-8 以支持中文显示
[Console]::OutputEncoding = [System.Text.UTF8Encoding]::new()
$OutputEncoding = [System.Text.UTF8Encoding]::new()
# 设置模型路径(请根据你的实际存放位置修改)
$ModelPath = ".\gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-IQ4_XS.gguf"
# 如果需要多模态支持(如视觉功能),请指定 mmproj 路径
# $MMProjPath = ".\mmproj-BF16.gguf"
Write-Host "正在启动 llama-server..." -ForegroundColor Cyan
# 启动 llama-server
# 参数说明:
# -m: 模型路径
# -ngl 99: 将 99 层模型加载到 GPU (设置足够大的值以充分利用显卡)
# -fa on: 启用 Flash Attention
# --ctx-size 131072: 设置上下文窗口大小
# --temp 1.0: 设置采样温度
.\llama-server -m $ModelPath --host 0.0.0.0 -ngl 99 -fa on --ctx-size 131072 --no-warmup --fit on --temp 1.0 --top-p 0.95 --top-k 64 --cache-type-k q4_0 --cache-type-v q4_0 --kv-unified --jinja --parallel 1 --no-mmap
运行服务
打开 PowerShell,进入脚本所在目录并执行:
1
.\start.ps1
3. 模型使用
服务启动后,你可以通过以下方式进行交互:
- Web UI: 直接在浏览器访问
http://localhost:8080(如果 llama-server 开启了 Web 界面)。 - OpenAI API: 使用兼容 OpenAI 格式的客户端,将 Base URL 指向
http://localhost:8080/v1。 - Anthropic API: Claude Code 可以使用 Anthropic 协议进行调用。
注意: 确保你的网络环境可以正常访问相关 API 服务。
本文由作者按照 CC BY-SA 4.0 进行授权