# Vision модели для Ollama ## Проблема с gemma3n:e4b-it-fp16 Модель `gemma3n:e4b-it-fp16` может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели. ## Рекомендуемые Vision модели ### 1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ **Модель:** `llava:latest` или `llava:7b` **Характеристики:** - 7B параметров - Версия 1.6 (обновлена в феврале 2024) - Улучшенное распознавание текста - Высокое разрешение изображений (в 4 раза больше пикселей) - Хорошо работает с документами, диаграммами, таблицами - Лицензия: Apache 2.0 или LLaMA 2 Community License **Установка:** ```bash sudo docker exec ollama ollama pull llava:latest ``` **Использование:** - В Open WebUI выберите модель `llava:latest` - Загрузите изображение - Задайте вопрос о изображении ### 2. BakLLaVA **Модель:** `bakllava:latest` **Характеристики:** - 7B параметров - Комбинация Mistral 7B + LLaVA архитектура - Контекстное окно: 32K **Установка:** ```bash sudo docker exec ollama ollama pull bakllava:latest ``` ### 3. Llama 3.2 Vision **Модель:** `llama3.2-vision:latest` или `llama3.2-vision:11b` **Характеристики:** - 11B параметров (требует 8GB VRAM) - 90B версия доступна (требует 64GB VRAM) - Контекстное окно: 128K - Оптимизирована для визуального распознавания, анализа изображений - Поддержка OCR, распознавание рукописного текста - Анализ графиков и таблиц **Установка:** ```bash sudo docker exec ollama ollama pull llama3.2-vision:11b ``` ## Быстрая установка Используйте скрипт для установки: ```bash cd /home/its/iiEasyWeb # Установить LLaVA (рекомендуется) sudo ./scripts/install_vision_model.sh llava # Или BakLLaVA sudo ./scripts/install_vision_model.sh bakllava # Или Llama 3.2 Vision sudo ./scripts/install_vision_model.sh llama3.2 ``` ## Тестирование Vision модели После установки протестируйте: ```bash cd /home/its/iiEasyWeb sudo ./scripts/test_direct_vision.sh ``` (Измените MODEL в скрипте на установленную vision модель) ## Использование в Open WebUI 1. Откройте https://odo.iieasy.ru 2. Перейдите в Settings → Models (или выберите модель в чате) 3. Выберите установленную vision модель (например, `llava:latest`) 4. Загрузите изображение через кнопку загрузки (📎 или 📷) 5. Задайте вопрос о изображении ## Рекомендация **Для лучшей совместимости с Open WebUI рекомендуется использовать `llava:latest`** - это самая популярная и хорошо поддерживаемая vision модель в Ollama.