AnimeApi(pic.re)是我的一个二次元图片壁纸提供API项目,任何人都可以通过此API在网络中获取随机或者带条件的随机方式获取一张图,或者是json结构体。 在接下来的不定时间内我会随心来解释这个项目的架构以及在开发运行遇到的一些优化点和更新内容。 也不知道有没有人看,不过在写这一系列的文章也算是帮我重新清理一下思路。 总体架构 Pic.re整套系统分为两块部分: 数据前处理模块 AnimeApi图片分发服务器 数据的收集以及前处理 这一整块模块还分为: 收集模块 重新分类打标模块 数据收集 整站的所有数据来源都是基于kona...
最近本想使用一些视觉模型来处理一些图片,目前参数和性能对我的32G mac都比较合理的应该是Qwen2-vl int4量化模型,但是llama.cpp对这个视觉模型的支持还是停留在Draft的阶段,导致Ollama也没能对他提供支持。 至于vllm官方支持大头还是linux和cuda。 于是发现了另一款LM Studio,这款软件支持使用huggingface上的gguf和mlx格式模型。支持提供OpenAI兼容API,还自带一个Chat功能。确实比Ollama只能用CLI方便很多。 这款软件底层使用llama.cpp运行gguf,在Mac的M系列上还支持mlx,就是Apple专门为M系...
使用国补买的Mac Mini M4终于是到了,最低配3599的价格(如果双十一还能叠券到3400),这一代M4最终把画面输出能力升级到3屏,规则有点复杂。 通过雷雳端口连接两台分辨率最高达 6K (60Hz) 的显示器,同时通过雷雳端口连接一台分辨率最高达 5K (60Hz) 的显示器或通过 HDMI 端口连接一台分辨率最高达 4K (60Hz) 的显示器 通过雷雳端口连接一台分辨率最高达 5K (60Hz) 的显示器,同时通过雷雳端口或 HDMI 端口连接一台分辨率最高达 8K (60Hz) 的显示器或一台分辨率最高达 4K (240Hz) 的显示器 总之就是最低端的M4也能多屏使...
前言 将模型量化到较低精度的格式(如8bit或4bit)可以显著降低计算成本并加速推理。然而,一直存在一个问题:这些量化的模型是否能保持相同的准确性和质量。最近,机器学习(ML)社区对量化的大型语言模型(LLMs)能否真正与其未压缩的版本在准确性和生成响应的整体质量上相竞争表示了重大关切。 正文 最近看到Neural Magic发布的一篇研究模型量化对于模型精度的影响的文章。 [https://neuralmagic.com/blog/we-ran-over-half-a-million-evaluations-on-quantized-llms-heres-what...
在Ollama支持函数调用、QWen2.5也开开源了出了一大堆参数尺寸的模型之后这么久才来写这一篇介绍Tools的基本用法,就是因为在这期间也用过好几家大语言模型平台,虽然文档中表明兼容OpenAI API接口,但是在使用一些需要使用Tools功能的工具中时,还是出现了一大堆不兼容的问题,或多或少都有一点输出内容的差异导致解析失败。 所以在当今以OpenAI API有先发优势成为为LLM API标准的今天还是重新学习一下Tools接口的使用方法。 介绍 Function calling现在是构建LLM应用的一个重要的组件,尤其是他通过上下文生成的输出内容格式化为固定的格式,而不是自...
Ollama的vison模型支持一直都特别慢,在之前也只有llava和minicpm支持,之后也一直没有给其他模型添加。 现在是终于添加了新的多模态模型支持,不知道新的多模态什么时候也加进去。 https://github.com/ollama/ollama/releases/tag/v0.4.0-rc5 这次0.4的主要更新内容 improved performance on new generation NVIDIA graphics cards (e.g. RTX 40 series) 在新世代 NVIDIA 图形卡(如 RTX 40 系列)上提升了性能 ...
在如今各种大型语言模型(LLM)蓬勃发展的背景下,许多基础性工作已经可以完全依赖这些东西来完成。特别是在处理文本内容的信息提取时,LLM的应用使得这一过程变得异常轻松,更何况现在的LLM api费用也是超级低,各家不是在送token就是在免费用的路上,本地运行ollama也可以完全脱离网络使用。 不再需要使用正则或者NLP,直接使用LLM进行一个力大飞砖。 结构化输出工具-Instructor Instructor是一个基于Pydantic的工具可以在结合LLM的情况将输出的内容储存到结构...
摘要: 阿里发布了Qwen2.5模型,具有多种参数尺寸,从0.5B到72B,并有针对数学和编码优化的特定模型。72B的表现接近Llama3.1 405B,32B在多数测试中超过GPT4o-mini。除3B和72B外,其他模型为Apache 2.0许可,可商用。性能测试显示,Qwen2.5在多项任务中表现优异,特别是数学和编码任务。Qwen-Turbo和Qwen2.5-32B也表现出色且具有成本优势。个人测试显示其具有不错的推理速度和电费经济性。总体来说,Qwen2.5是一次巨大的提升,适合多种需求。
最近阿里新开源的Qwen2.5性能测试真是出乎意料,不光是一口气推出了0.5B、1.5B、3B、7B、14B、32B、72B一共7种参数尺寸的模型,同时还有针对数学和编码转门优化过的专门模型,尤其是72B的测试结果更是可以和llama3.1 405b掰掰手腕。32B也在大部分测试项目中超过了gpt4o-mini。 除了3B和72B外是属于Qwen Research License,其他都是Apache 2.0,所以其他的都可以商业使用。 测试结果都展现在官方页面中 https://qwenlm.github.io/blog/qwen2.5-llm/ 。 这里摘抄一点测试表格内容: ##...
之前使用GraphRAG生成了自己的知识库,但是默认只能使用命令行查询,官方没做http api,所以自己用fastapi写了一个API wrapper。 https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/ 根据官方提供的notebook内容,修改成如下 from fastapi import FastAPI, HTTPException from pydantic import BaseModel import os import pandas as pd import tik...
摘要: ncnn是腾讯开发的开源神经网络推理框架,设计初衷是为了手机端应用,现已支持多平台(Android、鸿蒙、iOS、MacOS、Linux)和多种架构(x86、ARM、riscv、loongarch)。ncnn纯C++编写,无需第三方库,支持大小核调度优化和Vulkan API GPU 加速。相比OpenCV的DNN,ncnn更易用,无需手动编译CUDA,减少系统包臃肿。 使用步骤包括下载预编译文件、转换模型(如将yolox的Torch文件转换为Onnx文件并再转为ncnn格式)、修改模型(包括删除和添加层)、在代码中实现自定义层并创建工厂函数,最终进行推理。ncnn支持Vulkan加速和fp16精度操作。 测试表明,ncnn在推理速度和内存使用率上均优于OpenCV DNN,尤其是在多线程优化和内存占用方面。
ncnn是腾讯自己开发的一款开源神经网络推理框架,从设计之初就是为了手机端的应用,现在已经支持全平台(Android、鸿蒙、iOS、MacOS、Linux)、(x86、ARM、riscv、loongarch),提供的预编译二进制文件基本上是囊括了市面上能见到的所有系统和架构,如果没有还能自己编译需要的版本 https://github.com/Tencent/ncnn/wiki/how-to-build 纯C++、无第三方库,还支持大小核调度优化,并且支持Vulkan API GPU 加速! 适用性多么好我就不说了,简直就是,具体可以看官方的README https://github.co...