先确认一下 vLLM 是否已经安装?如果还没有,你可以用下面的命令安装:

pip install vllm

然后,我们编写一个 Python 脚本来运行 vLLM 服务器,并加载你的 Qwen2.5-7B-Instruct 模型:

1. 创建 server.py

在 WSL 终端里,进入你的工作目录并创建 server.py 文件:

touch server.py
nano server.py

然后填入以下代码:

import os
from vllm.entrypoints.openai.api_server import main
# 从 .env 文件加载密钥
from dotenv import load_dotenv
load_dotenv()

# 获取 API 密钥
API_KEYS = os.getenv(“API_KEYS”)

# 启动 vLLM 服务器
if __name__ == “__main__”:
main(
model=“/home/dministrator/Qwen2.5-7B-Instruct”,
tensor_parallel_size=2, # 你有两张 P100,设为 2
dtype=“bfloat16”, # 适用于 P100
api_keys=[API_KEYS] # 设定 API 密钥
)

2. 安装依赖

如果你还没有安装 python-dotenv,先安装:

pip install python-dotenv

3. 运行服务器

python server.py

4. 测试 API

服务器默认在 http://localhost:8000 运行,你可以用 curl 测试:

curl http://localhost:8000/v1/completions \
-H "Authorization: Bearer FB3B3A72FC753C7186F104F78262BBF7" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen2.5-7B-Instruct",
"prompt": "你好,请介绍一下你自己。",
"max_tokens": 200
}'

5. 让外部 AI 助手访问

如果你的 WSL 在局域网内,可以用 0.0.0.0 监听:

python server.py --host 0.0.0.0 --port 8000

然后让 AI 助手访问你的 WSL 机器的 IP 地址。

这样你的 vLLM 就可以通过 API 提供服务了!你可以试试看,看看是否有问题?

声明:本站内容来自公开平台,如若侵犯到您的权益,请联系我们,我们会第一时间删除!联系QQ:502428990。