文章

本地部署 Gemma 4

本地部署 Gemma 4

前言

本文将介绍如何使用 llama.cpp 在本地部署 Gemma 4 模型。通过使用量化技术,你可以在拥有一定显存的硬件上流畅运行高性能的开源模型。

1. 准备工作

模型下载

下载经过量化的 Gemma 4 模型文件(GGUF 格式)。

推荐模型: gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-IQ4_XS.gguf

硬件建议: 运行该版本建议至少拥有 16GB 显存。

下载 llama.cpp

访问 llama.cpp Releases 下载适用于 Windows 的二进制文件。

提示: 建议下载 vulkan 版本,它可以兼容包括集成显卡在内的多种硬件架构。

安装必要依赖

如果运行 llama.cpp 时提示缺失 DLL,请安装最新的 Visual C++ Redistributable:

Visual C++ 2015-2022 Redistributable


2. 快速启动

我们将使用 PowerShell 脚本来简化启动流程。

创建启动脚本

在你的模型目录下创建一个名为 start.ps1 的文件,并将以下内容粘贴进去:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 设置编码为 UTF-8 以支持中文显示
[Console]::OutputEncoding = [System.Text.UTF8Encoding]::new()
$OutputEncoding = [System.Text.UTF8Encoding]::new()

# 设置模型路径(请根据你的实际存放位置修改)
$ModelPath = ".\gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-IQ4_XS.gguf"

# 如果需要多模态支持(如视觉功能),请指定 mmproj 路径
# $MMProjPath = ".\mmproj-BF16.gguf"

Write-Host "正在启动 llama-server..." -ForegroundColor Cyan

# 启动 llama-server
# 参数说明:
# -m: 模型路径
# -ngl 99: 将 99 层模型加载到 GPU (设置足够大的值以充分利用显卡)
# -fa on: 启用 Flash Attention
# --ctx-size 131072: 设置上下文窗口大小
# --temp 1.0: 设置采样温度
.\llama-server -m $ModelPath --host 0.0.0.0 -ngl 99 -fa on --ctx-size 131072 --no-warmup --fit on --temp 1.0 --top-p 0.95 --top-k 64 --cache-type-k q4_0 --cache-type-v q4_0 --kv-unified --jinja --parallel 1 --no-mmap

运行服务

打开 PowerShell,进入脚本所在目录并执行:

1
.\start.ps1

3. 模型使用

服务启动后,你可以通过以下方式进行交互:

  • Web UI: 直接在浏览器访问 http://localhost:8080(如果 llama-server 开启了 Web 界面)。
  • OpenAI API: 使用兼容 OpenAI 格式的客户端,将 Base URL 指向 http://localhost:8080/v1
  • Anthropic API: Claude Code 可以使用 Anthropic 协议进行调用。

注意: 确保你的网络环境可以正常访问相关 API 服务。

本文由作者按照 CC BY-SA 4.0 进行授权

© Kai. 保留部分权利。

浙ICP备20006745号-2,本站由 Jekyll 生成,采用 Chirpy 主题。