llama-cpp-python 0.3.4版本(官方在win上最新的预编译cuda版本)不支持qwen3和gemma3架构,只能自己编译最新的llama-cpp-python cuda版本。
编译期间碰到“No CUDA toolset found.”报错,copilot询问无果,在 这里 找到了解决方法。
编译步骤总结如下:
1. 安装Build Tools for Visual Studio 2022
2. 把 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12. 8\extras\visual_studio_integration\MSBuildExtensions 中的文件全部复制到 C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\MSBuild\Microsoft\VC\v170\BuildCustomizations中
3. 安装llama-cpp-python
$env:CMAKE_ARGS="-DGGML_CUDA=on"
pip install llama-cpp-python --no-cache-dir