VLLM | 安落滢 Blog - 技术分享与生活记录

Qwen3.5-35B-A3B Info Qwen3.5 系列终于发布了小杯模型，对应的在阿里云提供 API，Qwen3.5-Plus 即 Qwen3.5-397B-A17B，Qwen3.5-Flash 即 Qwen3.5-35B-A3B。前面几天对于 Qwen3.5-Plus 的表现，网友评论都是不错、那么这个小杯表现如何是我们比较关注的，毕竟一点资源就能跑起来了。 Qwen3.5 Usage Guide - vLLM Recipes Qwen/Qwen3.5-35B-A3B · Hugging Face 服务器信息：显示已折叠代码（29 行） 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 【CPU 信息】 CPU 型号: Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz CPU 核心数: 32 【系统版本】操作系统: Ubuntu 版本: 22.04.5 LTS (Jammy Jellyfish) 内核版本: 5.15.0-168-generic 【GPU 信息】 NVIDIA GPU 检测到: GPU 0: NVIDIA GeForce RTX 3090 显存: 24576 MiB 驱动版本: 580.126.09 GPU 1: NVIDIA GeForce RTX 3090 显存: 24576 MiB 驱动版本: 580.126.09 GPU 2: NVIDIA GeForce RTX 3090 显存: 24576 MiB 驱动版本: 580.126.09 GPU 3: NVIDIA GeForce RTX 3090 显存: 24576 MiB 驱动版本: 580.126.09 GPU 4: NVIDIA GeForce RTX 3090 显存: 24576 MiB 驱动版本: 580.126.09 CUDA 版本: 13.0 部署按照官方文档安装最新的 vLLM，使用 vLLM 部署qwen3.5-35b-a3b，（我习惯使用 vLLM，好用、性能也很好） ...