当前位置：首页 > news >正文

海外网站空间做网站开发背景

news 2026/4/14 11:29:20

海外网站空间,做网站开发背景,便宜建网站,做关于车的网站系列文章目录玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型 langchain调用ollama视觉多模态语言模型系列文章目录前言使用Ollama下载模型查找模型下载模型测试模型ollama测试langchain测试加载图片加载模型…系列文章目录玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型 langchain调用ollama视觉多模态语言模型系列文章目录前言使用Ollama下载模型查找模型下载模型测试模型ollama测试langchain测试加载图片加载模型模型回复前言视觉多模态语言模型由预训练的多模态编码器、预训练的 LLM 以及连接两者的多模态接口等主要组件构成。将图像信息转换为可被语言模型处理的特征表示。拥有强大的视觉理解能力能够准确理解图像内容进行图像描述、视觉问答、图像定位等任务。可以与用户进行多轮交互根据用户的文本和图像输入生成连贯、准确且有针对性的回答。本篇文章将介绍使用langchain调用ollama视觉多模态语音模型。使用Ollama下载模型查找模型 Ollama官网https://ollama.com/ 在Ollama官网上点击左上角的Models 选择Vision后就可以看到所有的支持视觉的模型了在本篇文章中我们将使用llava模型进行演示笔者也可以选择其他模型进行测试。LLaVA(Large Language and Vision Assistant)是一种多模态模型它结合了视觉编码器和 Vicuna 以实现通用视觉和语言理解在科学问答、数据分析和学术任务导向的视觉问答中表现出色为研究人员提供了强大的工具。左侧可以选择模型大小模型越大一般来说效果越好但针对测试来说7b的模型是够用的为了兼容更多人的硬件设备我们选用7b模型即可。右侧的就使用ollama下载模型的命令。下载模型打开命令行窗口输入ollama下载模型的命令ollama run llava该命令会下载模型并直接执行在初次下载成功后再执行命令不会重复下载。执行命令后会先下载llava模型然后运行。如果想仅下载不运行可以使用ollama pull llava 使用ollama run llava下载模型可以直接与模型对话验证下载是否成功如果使用的是ollama pull llava可以通过ollama list查看模型有没有被添加到列表如果添加到列表说明下载成功。测试模型 ollama测试下面我们用这样一张图片测试一下模型的性能。图片的路径在D:/test_llava.png 打开命令行输入:ollama run llava可以直接在提问时提出图片路径使用模型。但是llava模型默认会使用英文回答所以最好在询问的时候让模型用中文回答。从中文的回答上来看回复内容是比较宽泛的描述并且有可能会出错羊驼被当作了斑羊。这可能和模型或者模型大小有关可以尝试其他模型测试一下后期笔者也会写一篇相关的测试文章请关注我的专栏。 langchain测试加载图片在langchain中使用视觉多模态语言模型时图片应该是Base64编码的格式下面介绍两种图片转Base64编码的方式。从网络获取图片 import base64 import httpximage_url 图片的网络链接 image_base64 base64.b64encode(httpx.get(image_url).content).decode(utf-8)从本地获取图片从本地获取图片并不能直接读取并转换Base64编码格式在这里我们可以编写一个函数来解决。 import base64 from PIL import Image import iodef image_to_base64(image_path):with Image.open(image_path) as img:buffer io.BytesIO()img.save(buffer, formatPNG)img_bytes buffer.getvalue()img_base64 base64.b64encode(img_bytes).decode(utf-8)return img_base64local_image_path D:/test_llava.png image_base64 image_to_base64(local_image_path)在函数image_to_base64中这里使用Image.open函数打开指定路径的图片文件。Image是PIL库中的类open方法用于打开图片文件。with语句用于确保在使用完图片资源后自动关闭文件释放资源避免资源泄漏。io.BytesIO是 Python 标准库io中的类用于在内存中创建一个二进制流缓冲区。这个缓冲区将用于存储图片数据。将打开的图片img保存到之前创建的缓冲区buffer中后使用getvalue方法用于获取缓冲区中的所有数据然后通过base64.b64encode函数用于对二进制数据img_bytes进行 Base64 编码返回一个字节对象。然后使用decode(utf-8)方法将字节对象转换为 UTF-8 编码的字符串得到最终的 Base64 编码的图片字符串。加载模型这里使用langchain中OpenAI接口和Ollama接口分别加载模型首先下载langchain-openai和langchain-ollama包打开命令行分别输入 pip install -U langchain-openai pip install -U langchain-ollamaOpenAI模型加载 from langchain_openai import ChatOpenAImodel ChatOpenAI(temperature0,modelllava:latest,openai_api_basehttp://localhost:11434/v1/,openai_api_keyany key )因为我们在本地使用ollama下载了llava模型了所以openai_api_base为ollama提供的URL:http://localhost:11434/v1/openai_api_key可以为任何值但不能不传这个参数或者为空并且不能是中文。 Ollama模型加载 from langchain_ollama.chat_models import ChatOllamamodel ChatOllama(modelllava:latest, temperature0)使用Ollama方式加载就更简单了不过这种方式仍然可以访问远程的URL。下面给出例子 model ChatOllama(modelllava:latest, base_urlhttp://localhost:11434/v1/, streamTrue, temperature0.6)如果要访问其他地址的ollama的URL修改base_url参数即可。模型回复 from langchain_core.messages import HumanMessagemessage HumanMessage(content[{type: text, text: 描述一下这幅图,用中文回答},{type: image_url,image_url: {url: fdata:image/jpeg;base64,{image_base64}},},], ) response model.invoke([message]) print(response.content)运行结果

查看全文

http://www.hkea.cn/news/14260458/