镇江网站制作咨询,广州建网站加备案,wordpress仿站网,网站营运Ollama 刚刚放出了对 Llama 3.2-Vision 的支持#xff01;这让人想起了新游戏发布带来的兴奋感——我期待着探索 Ollama 对 Llama 3.2-Vision 的支持。该模型不仅在自然语言理解方面表现出色#xff0c;而且可以无缝处理图像#xff0c;最好的部分是什么#xff1f;它是免费…Ollama 刚刚放出了对 Llama 3.2-Vision 的支持这让人想起了新游戏发布带来的兴奋感——我期待着探索 Ollama 对 Llama 3.2-Vision 的支持。该模型不仅在自然语言理解方面表现出色而且可以无缝处理图像最好的部分是什么它是免费的专为边缘 AI 设计。
在这篇文章中我将指导你将 Ollama 升级到 0.4.0 版提供一个动手演示来帮助你在系统上运行 Llama 3.2-Vision并讨论该模型的特殊之处以及它如何有可能彻底改变边缘 AI。 NSDT工具推荐 Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 - 3D道路快速建模 0、有什么重大意义
Llama 3.2-Vision 为最令人兴奋的语言模型之一带来了视觉功能使其能够同时处理文本和图像。
多模态功能Llama 3.2-Vision 处理文本和图像这对边缘 AI 应用程序至关重要。实时处理针对边缘设备进行了优化无需依赖云即可实现即时响应。增强隐私和降低成本本地处理将敏感数据保留在设备上并降低云费用。易于部署Ollama 的用户友好设置简化了多模式 AI 实施即使对于没有深厚 AI 专业知识的开发人员也是如此。边缘优化非常适合机器人、AR 和医疗保健等现实世界的应用其中实时图像理解是关键。
1、将 Ollama 升级到 0.4.0
要解锁 Llama 3.2-Vision 的强大功能你需要将 Ollama 升级到 0.4.0 版本。操作方法说明在这里简述如下
下载最新版本。前往 Ollama 的 GitHub 页面并下载版本 0.4.0。这是一个预发布版本因此请选择适合你系统的资产例如macOS 请选择“Ollama-darwin.zip”。运行应用程序。下载文件后运行应用程序。验证安装。通过运行以下命令检查更新是否成功
ollama --version
#ollama version is 0.4.0-rc3
你应该看到版本 0.4.0-rc3 作为输出。
注意版本 0.4.0-rc3 是预发布版本因此请务必留意未来的稳定版本。
2、安装 Llama 3.2 Vision 模型
现在已经更新了 Ollama让我们来提取 Llama 3.2-Vision 模型。使用以下命令
ollama run x/llama3.2-vision:11b
11b 指的是该模型的 110 亿参数版本可确保视觉任务的高精度。
你可以通过运行以下命令来验证安装
ollama list
输出应显示
NAME ID SIZE MODIFIED
x/llama3.2-vision:latest 2*****6a29 7.9 GB * hours ago
3、运行 Llama 3.2-Vision
让我们进入最有趣的部分 — 在图像上运行 Llama 3.2-Vision 模型。 Source: Harry Potter Wiki
以下是如何从命令行界面 (CLI) 正确执行此操作
ollama run x/llama3.2-vision:latest describe this image: /Users/../images/Gryffindor_ClearBG.png
将 /Users/../images/Gryffindor_ClearBG.png 替换为你选择的图像路径。模型将分析图像并根据其理解提供响应。
输出如下
The image appears to be a logo or emblem for the Hogwarts house Gryffindor. It features a bold, red and gold color scheme, which are the traditional
colors associated with Gryffindor. The design is simple yet striking, with the words Gryffindor in a curved line above a lions head, which is a common
symbol of bravery and courage - values that Gryffindor house embodies. 此示例展示了模型识别对象及其符号含义的能力。
4、使用 Python 与 Llama 3.2-Vision 集成
为了使用 Python 中的 Ollama 集成 Llama 3.2-Vision 的图像处理功能这里有一个实际示例您将图像转换为 base64 格式并将其发送到模型进行分析。Python 代码片段展示了如何使用 Pillow (PIL) 库将图像转换为 base64然后利用 Ollama 的聊天功能来解释图像。
from PIL import Image
import base64
import iodef image_to_base64(image_path):# Open the image filewith Image.open(image_path) as img:# Create a BytesIO object to hold the image databuffered io.BytesIO()# Save the image to the BytesIO object in a specific format (e.g., PNG)img.save(buffered, formatPNG)# Get the byte data from the BytesIO objectimg_bytes buffered.getvalue()# Encode the byte data to base64img_base64 base64.b64encode(img_bytes).decode(utf-8)return img_base64# Example usage
image_path /Users/../images/Gryffindor_ClearBG.png # Replace with your image path
base64_image image_to_base64(image_path)
在这种情况下处理图像时Base64 编码至关重要因为它允许将图像数据直接嵌入到请求中。在此示例中我们将 base64 编码的图像传递给模型以使用模型的文本和视觉功能识别其中的内容。此设置演示了 Llama 3.2-Vision 如何无缝处理基于图像的查询。
获得 base64 编码的图像后它会与查询一起发送到模型进行解释。
# Use Ollama to analyze the image with Llama 3.2-Vision
response ollama.chat(modelx/llama3.2-vision:latest,messages[{role: user,content: Describe this image?,images: [base64_image]}],
)# Extract the models response about the image
cleaned_text response[message][content].strip()
print(fModel Response: {cleaned_text})
在响应中模型返回处理后的结果例如识别提供的任何视觉数据的内容。
5、结束语
借助 Llama 3.2-VisionMeta 在边缘 AI 方面迈出了一大步使设备比以往任何时候都更智能、更强大。无论您是 AI 研究人员、AI 开发人员还是只是喜欢尝试最新技术的人此版本都开辟了令人兴奋的新可能性。
如果你还没有升级并使用 Llama 3.2-Vision请按照上述步骤立即升级和使用。准备好惊叹于您在边缘 AI 上可以取得的成就吧 原文链接Llama 3.2-Vision本地运行 - BimAnt