3.5 KiB
3.5 KiB
Vision модели для Ollama
Проблема с gemma3n:e4b-it-fp16
Модель gemma3n:e4b-it-fp16 может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели.
Рекомендуемые Vision модели
1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ
Модель: llava:latest или llava:7b
Характеристики:
- 7B параметров
- Версия 1.6 (обновлена в феврале 2024)
- Улучшенное распознавание текста
- Высокое разрешение изображений (в 4 раза больше пикселей)
- Хорошо работает с документами, диаграммами, таблицами
- Лицензия: Apache 2.0 или LLaMA 2 Community License
Установка:
sudo docker exec ollama ollama pull llava:latest
Использование:
- В Open WebUI выберите модель
llava:latest - Загрузите изображение
- Задайте вопрос о изображении
2. BakLLaVA
Модель: bakllava:latest
Характеристики:
- 7B параметров
- Комбинация Mistral 7B + LLaVA архитектура
- Контекстное окно: 32K
Установка:
sudo docker exec ollama ollama pull bakllava:latest
3. Llama 3.2 Vision
Модель: llama3.2-vision:latest или llama3.2-vision:11b
Характеристики:
- 11B параметров (требует 8GB VRAM)
- 90B версия доступна (требует 64GB VRAM)
- Контекстное окно: 128K
- Оптимизирована для визуального распознавания, анализа изображений
- Поддержка OCR, распознавание рукописного текста
- Анализ графиков и таблиц
Установка:
sudo docker exec ollama ollama pull llama3.2-vision:11b
Быстрая установка
Используйте скрипт для установки:
cd /home/its/iiEasyWeb
# Установить LLaVA (рекомендуется)
sudo ./scripts/install_vision_model.sh llava
# Или BakLLaVA
sudo ./scripts/install_vision_model.sh bakllava
# Или Llama 3.2 Vision
sudo ./scripts/install_vision_model.sh llama3.2
Тестирование Vision модели
После установки протестируйте:
cd /home/its/iiEasyWeb
sudo ./scripts/test_direct_vision.sh
(Измените MODEL в скрипте на установленную vision модель)
Использование в Open WebUI
- Откройте https://odo.iieasy.ru
- Перейдите в Settings → Models (или выберите модель в чате)
- Выберите установленную vision модель (например,
llava:latest) - Загрузите изображение через кнопку загрузки (📎 или 📷)
- Задайте вопрос о изображении
Рекомендация
Для лучшей совместимости с Open WebUI рекомендуется использовать llava:latest - это самая популярная и хорошо поддерживаемая vision модель в Ollama.