Files
iiEsaywebUI/VISION_MODELS.md
2026-02-19 18:12:09 +00:00

101 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Vision модели для Ollama
## Проблема с gemma3n:e4b-it-fp16
Модель `gemma3n:e4b-it-fp16` может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели.
## Рекомендуемые Vision модели
### 1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ
**Модель:** `llava:latest` или `llava:7b`
**Характеристики:**
- 7B параметров
- Версия 1.6 (обновлена в феврале 2024)
- Улучшенное распознавание текста
- Высокое разрешение изображений (в 4 раза больше пикселей)
- Хорошо работает с документами, диаграммами, таблицами
- Лицензия: Apache 2.0 или LLaMA 2 Community License
**Установка:**
```bash
sudo docker exec ollama ollama pull llava:latest
```
**Использование:**
- В Open WebUI выберите модель `llava:latest`
- Загрузите изображение
- Задайте вопрос о изображении
### 2. BakLLaVA
**Модель:** `bakllava:latest`
**Характеристики:**
- 7B параметров
- Комбинация Mistral 7B + LLaVA архитектура
- Контекстное окно: 32K
**Установка:**
```bash
sudo docker exec ollama ollama pull bakllava:latest
```
### 3. Llama 3.2 Vision
**Модель:** `llama3.2-vision:latest` или `llama3.2-vision:11b`
**Характеристики:**
- 11B параметров (требует 8GB VRAM)
- 90B версия доступна (требует 64GB VRAM)
- Контекстное окно: 128K
- Оптимизирована для визуального распознавания, анализа изображений
- Поддержка OCR, распознавание рукописного текста
- Анализ графиков и таблиц
**Установка:**
```bash
sudo docker exec ollama ollama pull llama3.2-vision:11b
```
## Быстрая установка
Используйте скрипт для установки:
```bash
cd /home/its/iiEasyWeb
# Установить LLaVA (рекомендуется)
sudo ./scripts/install_vision_model.sh llava
# Или BakLLaVA
sudo ./scripts/install_vision_model.sh bakllava
# Или Llama 3.2 Vision
sudo ./scripts/install_vision_model.sh llama3.2
```
## Тестирование Vision модели
После установки протестируйте:
```bash
cd /home/its/iiEasyWeb
sudo ./scripts/test_direct_vision.sh
```
(Измените MODEL в скрипте на установленную vision модель)
## Использование в Open WebUI
1. Откройте https://odo.iieasy.ru
2. Перейдите в Settings → Models (или выберите модель в чате)
3. Выберите установленную vision модель (например, `llava:latest`)
4. Загрузите изображение через кнопку загрузки (📎 или 📷)
5. Задайте вопрос о изображении
## Рекомендация
**Для лучшей совместимости с Open WebUI рекомендуется использовать `llava:latest`** - это самая популярная и хорошо поддерживаемая vision модель в Ollama.