Qwen2.5的小小部署测试

2024 年 9 月 21 日 星期六(已编辑)
/ ,
458
摘要
阿里发布了Qwen2.5模型,具有多种参数尺寸,从0.5B到72B,并有针对数学和编码优化的特定模型。72B的表现接近Llama3.1 405B,32B在多数测试中超过GPT4o-mini。除3B和72B外,其他模型为Apache 2.0许可,可商用。性能测试显示,Qwen2.5在多项任务中表现优异,特别是数学和编码任务。Qwen-Turbo和Qwen2.5-32B也表现出色且具有成本优势。个人测试显示其具有不错的推理速度和电费经济性。总体来说,Qwen2.5是一次巨大的提升,适合多种需求。
这篇文章上次修改于 2024 年 9 月 21 日 星期六,可能部分内容已经不适用,如有疑问可询问作者。

阅读此文章之前,你可能需要首先阅读以下的文章才能更好的理解上下文。

Qwen2.5的小小部署测试

最近阿里新开源的Qwen2.5性能测试真是出乎意料,不光是一口气推出了0.5B、1.5B、3B、7B、14B、32B、72B一共7种参数尺寸的模型,同时还有针对数学和编码转门优化过的专门模型,尤其是72B的测试结果更是可以和llama3.1 405b掰掰手腕。32B也在大部分测试项目中超过了gpt4o-mini。

除了3B和72B外是属于Qwen Research License,其他都是Apache 2.0,所以其他的都可以商业使用。

测试结果都展现在官方页面中 https://qwenlm.github.io/blog/qwen2.5-llm/

这里摘抄一点测试表格内容:

官方测试内容

这里的测试内容包括

通用任务: MMLU-Pro, MMLU-redux

数学和科学任务: GPQA, GSM8K, MATH

编码任务: HumanEval, MBPP, MultiPL-E, LiveCodeBench 2305-2409, LiveBench 0831

指令微调&对齐任务: IFeval strict-prompt, Arena-Hard, AlignBench v1.1, MTbench

Qwen2.5-72B-Instruct Performance

DatasetsMistral-Large2 InstructLlama-3.1-70B-InstructLlama-3.1-405B-InstructQwen2-72B-InstructQwen2.5-72B-Instruct
MMLU-Pro69.466.473.364.471.1
MMLU-redux83.083.086.281.686.8
GPQA52.046.751.142.449.0
MATH69.968.073.869.083.1
GSM8K92.795.196.893.295.8
HumanEval92.180.589.086.086.6
MBPP80.084.284.580.288.2
MultiPL-E76.968.273.569.275.1
LiveCodeBench 2305-240942.232.141.632.255.5
LiveBench 083148.546.653.241.552.3
IFeval strict-prompt64.183.686.077.684.1
Arena-Hard73.155.769.348.181.2
AlignBench v1.17.695.945.958.158.16
MTbench8.618.799.089.129.35

Qwen-Turbo & Qwen2.5-14B-Instruct & Qwen2.5-32B-Instruct Performance

DatasetsQwen2-57B-A14B-InstructGemma2-27B-ITGPT4o-miniQwen-TurboQwen2.5-14B-InstructQwen2.5-32B-Instruct
MMLU-Pro52.855.563.164.863.769.0
MMLU-redux72.675.781.580.480.083.9
GPQA34.338.440.244.445.549.5
MATH49.154.470.281.080.083.1
GSM8K85.390.493.293.694.895.9
HumanEval79.978.788.486.683.588.4
MBPP70.981.085.780.282.084.0
MultiPL-E66.467.475.073.072.875.4
LiveCodeBench 2305-240922.5-40.743.142.651.2
LiveBench 083131.139.643.341.644.450.7
IFeval strict-prompt59.977.180.474.981.079.5
Arena-Hard17.857.574.968.468.374.5
AlignBench v1.17.027.227.817.997.947.93
MTbench8.559.10-8.868.889.20

其他平台测试结果

如果不信官方的结果的话可以看看https://artificialanalysis.ai/models/qwen2-5-72b-instruct/providers,结果上和官方提供的差不多。

其他人的量化性能测试结果

https://www.reddit.com/r/LocalLLaMA/comments/1fkm5vd/qwen25_32b_gguf_evaluation_results/

根据reddit老哥的测试结果,以Q4_K_L-iMatrix为基准。Q3_K_M量化似乎没有质量损失(单指MMLU PRO任务),但是权重大小从20.43GB降到了14.8GB。这说明16G的家用卡也能完全load起来。

并且光是Q3量化的就已经打爆了Gemma2-27b q8量化。

自己的部署测试结果

因为公司的A100-40G有人用,只能放在V100-32G上测试。

软件环境:

  • 32b-instruct-q4_K_M
  • Ollama 0.3.11

加载完成后占用23G显存:

NAME           ID              SIZE     PROCESSOR    UNTIL   
qwen2.5:32b    9f13ba1299af    23 GB    100% GPU     Forever

(看起来还可以在同时跑一个14b或者7b去运行一些小任务?)

单任务速度如下:

Test in V100-32G

Test in V100-32G
推理速度在27t/s

开启并发支持后同时发送测试性能:

image.webp

image.webp

总体性能可能在到40-47 t/s的样子

成本分析上来说比gpt4o-mini贵50%,0.381/M Tokens。

根据我自己测算的性能按照单卡40t/s来算,V100-32G一直跑满250W,电费的话我也不太清楚(因为是放到学校里去了,也不知道要不要收我们维护费,但是机器都是公司买的,应该也行不收吧),按1块钱一度来算,1M tokens要6.944 GPU hour,电费成本大概就是¥6.944/M Tokens。

看起来比Artificial Analysis推算的价格高好多,不过也是V100不是出生在大模型的年代,肯定没有现在的H100、H20推理效率那么高,等后面有空再试试Q3的推理速度。

总结

Qwen2.5这次是一次巨大的提升,并没有像llama3.1那样靠超大的参数来硬拉(更何况llama3.1的多语言支持就是一坨),在各项测试成绩中都是处于不错甚至是前列的地位,并且经过量化后可以运行在大量的设备上,更何况他本来就提供小参数模型,各位可以看需求选取合适自己的模型,我会推荐老板在公司服务器上拿4张V100来跑32b给公司里有需要的人使用(老板之前openai用的心疼,把gpt4都下掉了,只给4o和4o-mini用),大概可以达到160-200t/s的速度。

另外要提一嘴排除o1,我并不认为o1是单独的一个大模型,他更像是使用了cot的一个工程优化后的大模型,不光是token的单价和4刚出的时候差不多(60 out你敢信),使用了cot token使用量也会大幅提升,所以这成本谁能用的起。如果其他llm也用上cot之后,回答质量和o1会差多少也不好说呢。

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...