之前使用GraphRAG生成了自己的知识库,但是默认只能使用命令行查询,官方没做http api,所以自己用fastapi写了一个API wrapper。 https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/ 根据官方提供的notebook内容,修改成如下 from fastapi import FastAPI, HTTPException from pydantic import BaseModel import os import pandas as pd import tik...
摘要: ncnn是腾讯开发的开源神经网络推理框架,设计初衷是为了手机端应用,现已支持多平台(Android、鸿蒙、iOS、MacOS、Linux)和多种架构(x86、ARM、riscv、loongarch)。ncnn纯C++编写,无需第三方库,支持大小核调度优化和Vulkan API GPU 加速。相比OpenCV的DNN,ncnn更易用,无需手动编译CUDA,减少系统包臃肿。 使用步骤包括下载预编译文件、转换模型(如将yolox的Torch文件转换为Onnx文件并再转为ncnn格式)、修改模型(包括删除和添加层)、在代码中实现自定义层并创建工厂函数,最终进行推理。ncnn支持Vulkan加速和fp16精度操作。 测试表明,ncnn在推理速度和内存使用率上均优于OpenCV DNN,尤其是在多线程优化和内存占用方面。
ncnn是腾讯自己开发的一款开源神经网络推理框架,从设计之初就是为了手机端的应用,现在已经支持全平台(Android、鸿蒙、iOS、MacOS、Linux)、(x86、ARM、riscv、loongarch),提供的预编译二进制文件基本上是囊括了市面上能见到的所有系统和架构,如果没有还能自己编译需要的版本 https://github.com/Tencent/ncnn/wiki/how-to-build 纯C++、无第三方库,还支持大小核调度优化,并且支持Vulkan API GPU 加速! 适用性多么好我就不说了,简直就是,具体可以看官方的README https://github.co...
GraphRAG是微软开源的一个利用知识图谱和LLM来处理大量文本的工具,其能在大量文本中利用LLM来提取实体(Entities)和关联关系(Relationships)并创建索引,这种方法使得比起传统的文章切片后直接使用词嵌入后存入向量数据库有更精准的信息搜索结果,能大幅提高LLM的回答效果。 准备使用 安装graphrag,只支持python3.10及以上的版本,太老的需要先更换python版本 python -m venv venv source venv/bin/activate pip install graphrag 创建仓库 创建数据库并初...
摘要: 公司闲置了一台A100-40*8的服务器,准备测试刚发布的llama3.1的405b版本,模拟gpt4o mini。在学校断网的情况下,通过远程桌面访问服务器,共克服了一系列的下载、量化和导入模型的问题。最后成功导入并测试了llama3.1模型。测试结果显示,尽管使用了量化后的模型,整体性能仍不如各大API和高性能推理服务器。但完成了对模型的基本测试,计划后续再试其他的推理后端和大参数模型进行横向对比。
公司有一台A100-40*8的服务器在闲置,最近llama3.1发布,其405b版本的声称能够和gpt4o mini打的有来有回,于是乎老板同意拿来自己部署测试一番。 准备 好巧不巧,服务器摆在学校里,学校竟然断网了,现在只能远程桌面一台笔记本来访问服务器,因此也不能直接用ollama pull镜像来直接使用。 1. 下载模型 首先从meta官方下载模型权重https://huggingface.co/meta-llama/Meta-Llama-3.1-405B ,在提交申请后十几分钟就通过了,把整个仓库clone下来,但是git lfs不支持断点续传,几百G的东西一旦断...
在4天前发布的0.3版本中,跟随llama3.1支持同时来的还有Functions功能,这毕竟是第一个完整支持这个功能的开源大模型,ollama现在支持也是正常的。 此前在使用Ollama做后端时只能使用prompt强制控制模型的输出结构,即使是官方的python sdk也是如此实现的,因此模型的逻辑能力和代码能力很重要。在小参数模型下未经微调,准确率可能50%都不到,之前测试的7b、8b的模型都不太行,更不用说0.5、1.5之类的小模型了。 现在有llama3.1标准版就支持funcitons之后,肯定也会有其他的厂商也会发布他们支持该功能的模型了,不用再去像我一样去研究奇技淫巧来实现相...
最近才发现qq机器人已经可以个人开发,而且这个星期qq群的权限也已经开放给个人开发者。所以有动力给自己做一个猫娘机器人了。在这之中结合LLM及各项技术,希望能完善开发出一个好用的东西。 接下来也会根据开发进度发一些相关的文章,今天是第一篇正式文章,之前的function calling系列内容也算是一部分基础。 问题分类器简介 制造一只猫娘,只是单纯的让LLM角色扮演一只猫娘那么就算现在在随便什么网页大模型设置一段prompt都能完成这个功能,还不用花钱。 所以,我的目标是她能实现除了对话之外的一系列功能,这就是Agent(智能体)的基本概念,能根据不同的需求从外部采集额外的数据...
摘要: 这篇文章介绍了Ollama尚未完成的function calling功能在不同框架下的实现方式。作者列举了几个支持Ollama function calling的SDK,包括langchain、ollama-rs、Hermes-Function-Calling、Qwen-Agent和liteLLM,并对这些框架的实现方式进行了对比分析。尽管Ollama官方尚未支持这一功能,但通过精心设计的prompt,这些框架仍能实现类似的功能。文章还讨论了开源模型在未微调情况下,通过长提示词实现function calling的可行性及其效果。
Ollama实际上是支持function calling这个功能的,但是在 https://github.com/ollama/ollama/blob/cb42e607c5cf4d439ad4d5a93ed13c7d6a09fc34/docs/openai.md?plain=1#L74-L82 其OpenAI兼容介绍中可以看到OpenAI接口实际并未完成。 所以要使用Http Api实现function calling的话可以参考我之前的文章,根据system prompt来控制LLM大模型的回复格式,并自己实现动态函数注册和内容解析就可以。 Ollama各路LLM 框架下的fu...
摘要: 根据上次文章的思路写一份在任意大模型实现Function调用的Demo,用Python和Ollama(或OpenAI API兼容的后端)来实现。
根据上次文章的思路来写一份在任意大模型实现Function calling的Demo,将上次的伪代码写成代码。 Requirement Python Ollama(或任意OpenAI API兼容的后端,当然你也可以根据本份demo修改成兼容其他的API) Demo repo: https://by.cx/posts/programming/function-calling-demo https://github.com/tusik/any-function-calling/blob/fb8e357b6b6e03befb4570e943ee436cd68f9990/o...
摘要: OpenAI的新模型引入了function calling功能,允许LLM根据对话内容自主选择函数。通过在接口中注册函数到tools参数,LLM可以调用这些函数。例如,get_current_temperature函数可以根据位置和单位获取当前温度。调用函数后,LLM会返回一个特定的调用结构,然后根据返回的数据调用函数,再将结果和用户内容结合回复用户。虽然OpenAI的API可能不易获得,但可以通过设置prompt实现function calling,让LLM输出指定的JSON格式,然后解析并执行函数。这种方法灵活性高,不需要新模型或fine-tuning,已在llama3、百度ERNIE Speed和阿里通义上进行测试并取得成功。
OpenAI之前给自己的新模型提供了function calling的能力具体的内容可查看官方的Doc,暨在给LLM提供tools工具的情况下,他能根据与你的对话内容自主选择函数。 OpenAI的Function calling tools=[ { "type": "function", "function": { "name": "get_current_...
摘要: 在Qt 5.15版本中,QModbusTcpClient存在内存泄漏问题,导致循环读取操作时RAM使用量不断增长。通过分析官方示例和使用Visual Studio内存快照,确认了该问题与信号连接有关。源代码审查指出,QModbusTcpClient::enqueueRequest函数中创建的QTimer与超时信号之间的连接未能正确清理。社区已有相关报告,但目前缺乏官方解决方案。作为临时措施,可以通过手动断开相关信号连接来缓解内存泄漏,但这不是长期解决方案,最终需等待Qt团队修复。
问题现象 之前公司内使用的Qt版本均为5.13,后期因为这个版本不是LTS,还有更新的Chromium所以向上升级到了5.15.X(然而开源版本也不是LTS ?)。老的项目继续使用5.13,新的项目就全用5.15开发。 之后有组员向我反映在他的项目里使用QModbusTcpClient循环读取slave的情况下会导致内存不断增长。我自己的项目正好换了一种控制方式,控制反转客户端用了QModbusTcpServer,正好跳过了这个问题。 写了一个测试程序,使用QModbusTcpClient以50ms读取slave数据。大概的代码就长这样 void Client::ru...