本地部署 Gemma 4

发表于 2026/04/17 更新于 2026/04/17

作者 Kai

3 分钟阅读

本地部署 Gemma 4

前言

本文将介绍如何使用 llama.cpp 在本地部署 Gemma 4 模型。通过使用量化技术，你可以在拥有一定显存的硬件上流畅运行高性能的开源模型。

1. 准备工作

模型下载

下载经过量化的 Gemma 4 模型文件（GGUF 格式）。

硬件建议： 运行该版本建议至少拥有 16GB 显存。

下载 llama.cpp

访问 llama.cpp Releases 下载适用于 Windows 的二进制文件。

提示： 建议下载 vulkan 版本，它可以兼容包括集成显卡在内的多种硬件架构。

安装必要依赖

如果运行 llama.cpp 时提示缺失 DLL，请安装最新的 Visual C++ Redistributable：

Visual C++ 2015-2022 Redistributable

2. 快速启动

我们将使用 PowerShell 脚本来简化启动流程。

创建启动脚本

在你的模型目录下创建一个名为 start.ps1 的文件，并将以下内容粘贴进去：

  
# 设置编码为 UTF-8 以支持中文显示
[Console]::OutputEncoding = [System.Text.UTF8Encoding]::new()
$OutputEncoding = [System.Text.UTF8Encoding]::new()

# 设置模型路径（请根据你的实际存放位置修改）
$ModelPath = ".\gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-IQ4_XS.gguf"

# 如果需要多模态支持（如视觉功能），请指定 mmproj 路径
# $MMProjPath = ".\mmproj-BF16.gguf"

Write-Host "正在启动 llama-server..." -ForegroundColor Cyan

# 启动 llama-server
# 参数说明:
# -m: 模型路径
# -ngl 99: 将 99 层模型加载到 GPU (设置足够大的值以充分利用显卡)
# -fa on: 启用 Flash Attention
# --ctx-size 131072: 设置上下文窗口大小
# --temp 1.0: 设置采样温度
.\llama-server -m $ModelPath --host 0.0.0.0 -ngl 99 -fa on --ctx-size 131072 --no-warmup --fit on --temp 1.0 --top-p 0.95 --top-k 64 --cache-type-k q4_0 --cache-type-v q4_0 --kv-unified --jinja --parallel 1 --no-mmap

运行服务

打开 PowerShell，进入脚本所在目录并执行：

  
.\start.ps1

3. 模型使用

服务启动后，你可以通过以下方式进行交互：

Web UI: 直接在浏览器访问 http://localhost:8080（如果 llama-server 开启了 Web 界面）。
OpenAI API: 使用兼容 OpenAI 格式的客户端，将 Base URL 指向 http://localhost:8080/v1。
Anthropic API: Claude Code 可以使用 Anthropic 协议进行调用。

注意: 确保你的网络环境可以正常访问相关 API 服务。

教程

llamacpp gemma

本文由作者按照 CC BY-SA 4.0 进行授权