VISION_MODELS.md

# Vision модели для Ollama

## Проблема с gemma3n:e4b-it-fp16

Модель `gemma3n:e4b-it-fp16` может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели.

## Рекомендуемые Vision модели

### 1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ

**Модель:** `llava:latest` или `llava:7b`

**Характеристики:**
- 7B параметров
- Версия 1.6 (обновлена в феврале 2024)
- Улучшенное распознавание текста
- Высокое разрешение изображений (в 4 раза больше пикселей)
- Хорошо работает с документами, диаграммами, таблицами
- Лицензия: Apache 2.0 или LLaMA 2 Community License

**Установка:**
```bash
sudo docker exec ollama ollama pull llava:latest
```

**Использование:**
- В Open WebUI выберите модель `llava:latest`
- Загрузите изображение
- Задайте вопрос о изображении

### 2. BakLLaVA

**Модель:** `bakllava:latest`

**Характеристики:**
- 7B параметров
- Комбинация Mistral 7B + LLaVA архитектура
- Контекстное окно: 32K

**Установка:**
```bash
sudo docker exec ollama ollama pull bakllava:latest
```

### 3. Llama 3.2 Vision

**Модель:** `llama3.2-vision:latest` или `llama3.2-vision:11b`

**Характеристики:**
- 11B параметров (требует 8GB VRAM)
- 90B версия доступна (требует 64GB VRAM)
- Контекстное окно: 128K
- Оптимизирована для визуального распознавания, анализа изображений
- Поддержка OCR, распознавание рукописного текста
- Анализ графиков и таблиц

**Установка:**
```bash
sudo docker exec ollama ollama pull llama3.2-vision:11b
```

## Быстрая установка

Используйте скрипт для установки:

```bash
cd /home/its/iiEasyWeb

# Установить LLaVA (рекомендуется)
sudo ./scripts/install_vision_model.sh llava

# Или BakLLaVA
sudo ./scripts/install_vision_model.sh bakllava

# Или Llama 3.2 Vision
sudo ./scripts/install_vision_model.sh llama3.2
```

## Тестирование Vision модели

После установки протестируйте:

```bash
cd /home/its/iiEasyWeb
sudo ./scripts/test_direct_vision.sh
```

(Измените MODEL в скрипте на установленную vision модель)

## Использование в Open WebUI

1. Откройте https://odo.iieasy.ru
2. Перейдите в Settings → Models (или выберите модель в чате)
3. Выберите установленную vision модель (например, `llava:latest`)
4. Загрузите изображение через кнопку загрузки (📎 или 📷)
5. Задайте вопрос о изображении

## Рекомендация

**Для лучшей совместимости с Open WebUI рекомендуется использовать `llava:latest`** - это самая популярная и хорошо поддерживаемая vision модель в Ollama.
-												Add project and deployment instruction (docs/DEPLOYMENT.md)

Co-authored-by: Cursor <cursoragent@cursor.com>

											
										
										
											2026-02-19 18:12:09 +00:00
+								# Vision модели для Ollama
 								## Проблема с gemma3n:e4b-it-fp16
 								Модель `gemma3n:e4b-it-fp16` может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели.
 								## Рекомендуемые Vision модели
 								### 1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ
 								**Модель:** `llava:latest` или `llava:7b`
 								**Характеристики:**
 								- 7B параметров
 								- Версия 1.6 (обновлена в феврале 2024)
 								- Улучшенное распознавание текста
 								- Высокое разрешение изображений (в 4 раза больше пикселей)
 								- Хорошо работает с документами, диаграммами, таблицами
 								- Лицензия: Apache 2.0 или LLaMA 2 Community License
 								**Установка:**
 								```bash
 								sudo docker exec ollama ollama pull llava:latest
 								```
 								**Использование:**
 								- В Open WebUI выберите модель `llava:latest`
 								- Загрузите изображение
 								- Задайте вопрос о изображении
 								### 2. BakLLaVA
 								**Модель:** `bakllava:latest`
 								**Характеристики:**
 								- 7B параметров
 								- Комбинация Mistral 7B + LLaVA архитектура
 								- Контекстное окно: 32K
 								**Установка:**
 								```bash
 								sudo docker exec ollama ollama pull bakllava:latest
 								```
 								### 3. Llama 3.2 Vision
 								**Модель:** `llama3.2-vision:latest` или `llama3.2-vision:11b`
 								**Характеристики:**
 								- 11B параметров (требует 8GB VRAM)
 								- 90B версия доступна (требует 64GB VRAM)
 								- Контекстное окно: 128K
 								- Оптимизирована для визуального распознавания, анализа изображений
 								- Поддержка OCR, распознавание рукописного текста
 								- Анализ графиков и таблиц
 								**Установка:**
 								```bash
 								sudo docker exec ollama ollama pull llama3.2-vision:11b
 								```
 								## Быстрая установка
 								Используйте скрипт для установки:
 								```bash
 								cd /home/its/iiEasyWeb
 								# Установить LLaVA (рекомендуется)
 								sudo ./scripts/install_vision_model.sh llava
 								# Или BakLLaVA
 								sudo ./scripts/install_vision_model.sh bakllava
 								# Или Llama 3.2 Vision
 								sudo ./scripts/install_vision_model.sh llama3.2
 								```
 								## Тестирование Vision модели
 								После установки протестируйте:
 								```bash
 								cd /home/its/iiEasyWeb
 								sudo ./scripts/test_direct_vision.sh
 								```
 								(Измените MODEL в скрипте на установленную vision модель)
 								## Использование в Open WebUI
 . Откройте https://odo.iieasy.ru
 . Перейдите в Settings → Models (или выберите модель в чате)
 . Выберите установленную vision модель (например, `llava:latest`)
 . Загрузите изображение через кнопку загрузки (📎 или 📷)
 . Задайте вопрос о изображении
 								## Рекомендация
 								**Для лучшей совместимости с Open WebUI рекомендуется использовать `llava:latest`** - это самая популярная и хорошо поддерживаемая vision модель в Ollama.