Ollama v0.4 可运行 Llama 3.2 Vision 啦

文摘   2024-11-10 00:04   上海  
点击下方卡片,关注“AI生成未来


Llama 3.2 Vision 现已可在 Ollama 中运行,提供 11B 和 90B 两种规模。

入门指南

下载 Ollama 0.4,然后运行以下命令:

ollama run llama3.2-vision

要运行更大的 90B 模型:

ollama run llama3.2-vision:90b

要将图像添加到提示中,拖放图像到终端,或在 Linux 中将图像路径添加到提示中。

注意:Llama 3.2 Vision 11B 至少需要 8GB 的 VRAM,90B 模型至少需要 64GB 的 VRAM 。

示例

手写

手写示例

光学字符识别 (OCR)

OCR 示例

图表与表格

图表与表格示例

图像问答

图像问答示例

使用方法

首先,拉取模型:

ollama pull llama3.2-vision

Python 库

使用 Ollama Python 库[1]与 Llama 3.2 Vision:

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[
        {
            'role': 'user',
            'content': 'What is in this image?',
            'images': ['image.jpg']
        }
    ]
)

print(response)

JavaScript 库

使用 Ollama JavaScript 库[2]与 Llama 3.2 Vision:

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'llama3.2-vision',
  messages: [{
    role: 'user',
    content: 'What is in this image?',
    images: ['image.jpg']
  }]
})

console.log(response)

cURL

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2-vision",
  "messages": [
    {
      "role": "user",
      "content": "what is in this image?",
      "images": ["<base64-encoded image data>"]
    }
  ]
}'

参考资料

[1]

Python 库: https://github.com/ollama/ollama-python

[2]

JavaScript 库: https://github.com/ollama/ollama-js

原文:https://ollama.com/blog/llama3.2-vision

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
 最新文章