前言 将模型量化到较低精度的格式(如8bit或4bit)可以显著降低计算成本并加速推理。然而,一直存在一个问题:这些量化的模型是否能保持相同的准确性和质量。最近,机器学习(ML)社区对量化的大型语言模型(LLMs)能否真正与其未压缩的版本在准确性和生成响应的整体质量上相竞争表示了重大关切。 正文 最近看到Neural Magic发布的一篇研究模型量化对于模型精度的影响的文章。 [https://neuralmagic.com/blog/we-ran-over-half-a-million-evaluations-on-quantized-llms-heres-what...
在Ollama支持函数调用、QWen2.5也开开源了出了一大堆参数尺寸的模型之后这么久才来写这一篇介绍Tools的基本用法,就是因为在这期间也用过好几家大语言模型平台,虽然文档中表明兼容OpenAI API接口,但是在使用一些需要使用Tools功能的工具中时,还是出现了一大堆不兼容的问题,或多或少都有一点输出内容的差异导致解析失败。 所以在当今以OpenAI API有先发优势成为为LLM API标准的今天还是重新学习一下Tools接口的使用方法。 介绍 Function calling现在是构建LLM应用的一个重要的组件,尤其是他通过上下文生成的输出内容格式化为固定的格式,而不是自...
Ollama的vison模型支持一直都特别慢,在之前也只有llava和minicpm支持,之后也一直没有给其他模型添加。 现在是终于添加了新的多模态模型支持,不知道新的多模态什么时候也加进去。 https://github.com/ollama/ollama/releases/tag/v0.4.0-rc5 这次0.4的主要更新内容 improved performance on new generation NVIDIA graphics cards (e.g. RTX 40 series) 在新世代 NVIDIA 图形卡(如 RTX 40 系列)上提升了性能 ...
在如今各种大型语言模型(LLM)蓬勃发展的背景下,许多基础性工作已经可以完全依赖这些东西来完成。特别是在处理文本内容的信息提取时,LLM的应用使得这一过程变得异常轻松,更何况现在的LLM api费用也是超级低,各家不是在送token就是在免费用的路上,本地运行ollama也可以完全脱离网络使用。 不再需要使用正则或者NLP,直接使用LLM进行一个力大飞砖。 结构化输出工具-Instructor Instructor是一个基于Pydantic的工具可以在结合LLM的情况将输出的内容储存到结构...
摘要: 阿里发布了Qwen2.5模型,具有多种参数尺寸,从0.5B到72B,并有针对数学和编码优化的特定模型。72B的表现接近Llama3.1 405B,32B在多数测试中超过GPT4o-mini。除3B和72B外,其他模型为Apache 2.0许可,可商用。性能测试显示,Qwen2.5在多项任务中表现优异,特别是数学和编码任务。Qwen-Turbo和Qwen2.5-32B也表现出色且具有成本优势。个人测试显示其具有不错的推理速度和电费经济性。总体来说,Qwen2.5是一次巨大的提升,适合多种需求。
最近阿里新开源的Qwen2.5性能测试真是出乎意料,不光是一口气推出了0.5B、1.5B、3B、7B、14B、32B、72B一共7种参数尺寸的模型,同时还有针对数学和编码转门优化过的专门模型,尤其是72B的测试结果更是可以和llama3.1 405b掰掰手腕。32B也在大部分测试项目中超过了gpt4o-mini。 除了3B和72B外是属于Qwen Research License,其他都是Apache 2.0,所以其他的都可以商业使用。 测试结果都展现在官方页面中 https://qwenlm.github.io/blog/qwen2.5-llm/ 。 这里摘抄一点测试表格内容: ##...
之前使用GraphRAG生成了自己的知识库,但是默认只能使用命令行查询,官方没做http api,所以自己用fastapi写了一个API wrapper。 https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/ 根据官方提供的notebook内容,修改成如下 from fastapi import FastAPI, HTTPException from pydantic import BaseModel import os import pandas as pd import tik...
摘要: ncnn是腾讯开发的开源神经网络推理框架,设计初衷是为了手机端应用,现已支持多平台(Android、鸿蒙、iOS、MacOS、Linux)和多种架构(x86、ARM、riscv、loongarch)。ncnn纯C++编写,无需第三方库,支持大小核调度优化和Vulkan API GPU 加速。相比OpenCV的DNN,ncnn更易用,无需手动编译CUDA,减少系统包臃肿。 使用步骤包括下载预编译文件、转换模型(如将yolox的Torch文件转换为Onnx文件并再转为ncnn格式)、修改模型(包括删除和添加层)、在代码中实现自定义层并创建工厂函数,最终进行推理。ncnn支持Vulkan加速和fp16精度操作。 测试表明,ncnn在推理速度和内存使用率上均优于OpenCV DNN,尤其是在多线程优化和内存占用方面。
ncnn是腾讯自己开发的一款开源神经网络推理框架,从设计之初就是为了手机端的应用,现在已经支持全平台(Android、鸿蒙、iOS、MacOS、Linux)、(x86、ARM、riscv、loongarch),提供的预编译二进制文件基本上是囊括了市面上能见到的所有系统和架构,如果没有还能自己编译需要的版本 https://github.com/Tencent/ncnn/wiki/how-to-build 纯C++、无第三方库,还支持大小核调度优化,并且支持Vulkan API GPU 加速! 适用性多么好我就不说了,简直就是,具体可以看官方的README https://github.co...
GraphRAG是微软开源的一个利用知识图谱和LLM来处理大量文本的工具,其能在大量文本中利用LLM来提取实体(Entities)和关联关系(Relationships)并创建索引,这种方法使得比起传统的文章切片后直接使用词嵌入后存入向量数据库有更精准的信息搜索结果,能大幅提高LLM的回答效果。 准备使用 安装graphrag,只支持python3.10及以上的版本,太老的需要先更换python版本 python -m venv venv source venv/bin/activate pip install graphrag 创建仓库 创建数据库并初...
摘要: 公司闲置了一台A100-40*8的服务器,准备测试刚发布的llama3.1的405b版本,模拟gpt4o mini。在学校断网的情况下,通过远程桌面访问服务器,共克服了一系列的下载、量化和导入模型的问题。最后成功导入并测试了llama3.1模型。测试结果显示,尽管使用了量化后的模型,整体性能仍不如各大API和高性能推理服务器。但完成了对模型的基本测试,计划后续再试其他的推理后端和大参数模型进行横向对比。
公司有一台A100-40*8的服务器在闲置,最近llama3.1发布,其405b版本的声称能够和gpt4o mini打的有来有回,于是乎老板同意拿来自己部署测试一番。 准备 好巧不巧,服务器摆在学校里,学校竟然断网了,现在只能远程桌面一台笔记本来访问服务器,因此也不能直接用ollama pull镜像来直接使用。 1. 下载模型 首先从meta官方下载模型权重https://huggingface.co/meta-llama/Meta-Llama-3.1-405B ,在提交申请后十几分钟就通过了,把整个仓库clone下来,但是git lfs不支持断点续传,几百G的东西一旦断...
在4天前发布的0.3版本中,跟随llama3.1支持同时来的还有Functions功能,这毕竟是第一个完整支持这个功能的开源大模型,ollama现在支持也是正常的。 此前在使用Ollama做后端时只能使用prompt强制控制模型的输出结构,即使是官方的python sdk也是如此实现的,因此模型的逻辑能力和代码能力很重要。在小参数模型下未经微调,准确率可能50%都不到,之前测试的7b、8b的模型都不太行,更不用说0.5、1.5之类的小模型了。 现在有llama3.1标准版就支持funcitons之后,肯定也会有其他的厂商也会发布他们支持该功能的模型了,不用再去像我一样去研究奇技淫巧来实现相...