Files
iiEsaywebUI/VISION_MODELS.md
2026-02-19 18:12:09 +00:00

3.5 KiB
Raw Blame History

Vision модели для Ollama

Проблема с gemma3n:e4b-it-fp16

Модель gemma3n:e4b-it-fp16 может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели.

Рекомендуемые Vision модели

1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ

Модель: llava:latest или llava:7b

Характеристики:

  • 7B параметров
  • Версия 1.6 (обновлена в феврале 2024)
  • Улучшенное распознавание текста
  • Высокое разрешение изображений (в 4 раза больше пикселей)
  • Хорошо работает с документами, диаграммами, таблицами
  • Лицензия: Apache 2.0 или LLaMA 2 Community License

Установка:

sudo docker exec ollama ollama pull llava:latest

Использование:

  • В Open WebUI выберите модель llava:latest
  • Загрузите изображение
  • Задайте вопрос о изображении

2. BakLLaVA

Модель: bakllava:latest

Характеристики:

  • 7B параметров
  • Комбинация Mistral 7B + LLaVA архитектура
  • Контекстное окно: 32K

Установка:

sudo docker exec ollama ollama pull bakllava:latest

3. Llama 3.2 Vision

Модель: llama3.2-vision:latest или llama3.2-vision:11b

Характеристики:

  • 11B параметров (требует 8GB VRAM)
  • 90B версия доступна (требует 64GB VRAM)
  • Контекстное окно: 128K
  • Оптимизирована для визуального распознавания, анализа изображений
  • Поддержка OCR, распознавание рукописного текста
  • Анализ графиков и таблиц

Установка:

sudo docker exec ollama ollama pull llama3.2-vision:11b

Быстрая установка

Используйте скрипт для установки:

cd /home/its/iiEasyWeb

# Установить LLaVA (рекомендуется)
sudo ./scripts/install_vision_model.sh llava

# Или BakLLaVA
sudo ./scripts/install_vision_model.sh bakllava

# Или Llama 3.2 Vision
sudo ./scripts/install_vision_model.sh llama3.2

Тестирование Vision модели

После установки протестируйте:

cd /home/its/iiEasyWeb
sudo ./scripts/test_direct_vision.sh

(Измените MODEL в скрипте на установленную vision модель)

Использование в Open WebUI

  1. Откройте https://odo.iieasy.ru
  2. Перейдите в Settings → Models (или выберите модель в чате)
  3. Выберите установленную vision модель (например, llava:latest)
  4. Загрузите изображение через кнопку загрузки (📎 или 📷)
  5. Задайте вопрос о изображении

Рекомендация

Для лучшей совместимости с Open WebUI рекомендуется использовать llava:latest - это самая популярная и хорошо поддерживаемая vision модель в Ollama.