101 lines
3.5 KiB
Markdown
101 lines
3.5 KiB
Markdown
|
|
# Vision модели для Ollama
|
|||
|
|
|
|||
|
|
## Проблема с gemma3n:e4b-it-fp16
|
|||
|
|
|
|||
|
|
Модель `gemma3n:e4b-it-fp16` может не поддерживать vision правильно или требует специальной настройки. Рекомендуется использовать специализированные vision модели.
|
|||
|
|
|
|||
|
|
## Рекомендуемые Vision модели
|
|||
|
|
|
|||
|
|
### 1. LLaVA (Large Language-and-Vision Assistant) - РЕКОМЕНДУЕТСЯ
|
|||
|
|
|
|||
|
|
**Модель:** `llava:latest` или `llava:7b`
|
|||
|
|
|
|||
|
|
**Характеристики:**
|
|||
|
|
- 7B параметров
|
|||
|
|
- Версия 1.6 (обновлена в феврале 2024)
|
|||
|
|
- Улучшенное распознавание текста
|
|||
|
|
- Высокое разрешение изображений (в 4 раза больше пикселей)
|
|||
|
|
- Хорошо работает с документами, диаграммами, таблицами
|
|||
|
|
- Лицензия: Apache 2.0 или LLaMA 2 Community License
|
|||
|
|
|
|||
|
|
**Установка:**
|
|||
|
|
```bash
|
|||
|
|
sudo docker exec ollama ollama pull llava:latest
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
**Использование:**
|
|||
|
|
- В Open WebUI выберите модель `llava:latest`
|
|||
|
|
- Загрузите изображение
|
|||
|
|
- Задайте вопрос о изображении
|
|||
|
|
|
|||
|
|
### 2. BakLLaVA
|
|||
|
|
|
|||
|
|
**Модель:** `bakllava:latest`
|
|||
|
|
|
|||
|
|
**Характеристики:**
|
|||
|
|
- 7B параметров
|
|||
|
|
- Комбинация Mistral 7B + LLaVA архитектура
|
|||
|
|
- Контекстное окно: 32K
|
|||
|
|
|
|||
|
|
**Установка:**
|
|||
|
|
```bash
|
|||
|
|
sudo docker exec ollama ollama pull bakllava:latest
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### 3. Llama 3.2 Vision
|
|||
|
|
|
|||
|
|
**Модель:** `llama3.2-vision:latest` или `llama3.2-vision:11b`
|
|||
|
|
|
|||
|
|
**Характеристики:**
|
|||
|
|
- 11B параметров (требует 8GB VRAM)
|
|||
|
|
- 90B версия доступна (требует 64GB VRAM)
|
|||
|
|
- Контекстное окно: 128K
|
|||
|
|
- Оптимизирована для визуального распознавания, анализа изображений
|
|||
|
|
- Поддержка OCR, распознавание рукописного текста
|
|||
|
|
- Анализ графиков и таблиц
|
|||
|
|
|
|||
|
|
**Установка:**
|
|||
|
|
```bash
|
|||
|
|
sudo docker exec ollama ollama pull llama3.2-vision:11b
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
## Быстрая установка
|
|||
|
|
|
|||
|
|
Используйте скрипт для установки:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
cd /home/its/iiEasyWeb
|
|||
|
|
|
|||
|
|
# Установить LLaVA (рекомендуется)
|
|||
|
|
sudo ./scripts/install_vision_model.sh llava
|
|||
|
|
|
|||
|
|
# Или BakLLaVA
|
|||
|
|
sudo ./scripts/install_vision_model.sh bakllava
|
|||
|
|
|
|||
|
|
# Или Llama 3.2 Vision
|
|||
|
|
sudo ./scripts/install_vision_model.sh llama3.2
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
## Тестирование Vision модели
|
|||
|
|
|
|||
|
|
После установки протестируйте:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
cd /home/its/iiEasyWeb
|
|||
|
|
sudo ./scripts/test_direct_vision.sh
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
(Измените MODEL в скрипте на установленную vision модель)
|
|||
|
|
|
|||
|
|
## Использование в Open WebUI
|
|||
|
|
|
|||
|
|
1. Откройте https://odo.iieasy.ru
|
|||
|
|
2. Перейдите в Settings → Models (или выберите модель в чате)
|
|||
|
|
3. Выберите установленную vision модель (например, `llava:latest`)
|
|||
|
|
4. Загрузите изображение через кнопку загрузки (📎 или 📷)
|
|||
|
|
5. Задайте вопрос о изображении
|
|||
|
|
|
|||
|
|
## Рекомендация
|
|||
|
|
|
|||
|
|
**Для лучшей совместимости с Open WebUI рекомендуется использовать `llava:latest`** - это самая популярная и хорошо поддерживаемая vision модель в Ollama.
|