Что такое Kandinsky 2.2: как пользоваться нейросетью, примеры генераций и промты

UX-специалист
Стаж 8 лет

После получившей ошеломительную известность Midjourney появились куча аналогов с тем же функционалом, но работающих с русскими запросами, с бесплатным доступом и не требующих входа через VPN.

Одна из них — нейросеть Kandinsky 2.2. В статье разбираем особенности и функционал новой версии 2.2, делимся инструкцией как пользоваться нейросетью и писать промты для генераций.

Что такое Kandinsky

Kandinsky — это российская бесплатная нейросеть для генерации изображений от Sber AI, аналог популярной Midjourney. Нейросеть хорошо понимает запросы на русском языке, имеет возможность генерировать по текстовым промтам или на основе уже готовых фото и картинок.

Попробовать генерацию изображений можно на разных ресурсах: 

  • на сайте нейросети «Кандинский» Fusion Brain;
  • в телеграм-боте;
  • в боте ВК;
  • с урезанным функционалом на сайте ruDALL-E;
  • с помощью виртуального ассистента в приложении «Салют» от «Сбера»: по команде «Включи художника» приложение откроет нейросеть «Кандинский 2.2».

Kandinsky 2.2 — самое свежее обновление нейросети на текущий момент. Главная фишка, отличающая ее от предшественников — фотореализм. Изображения создаются с разрешением до 1024 пикселей и имеют высокий уровень детализации.

Пример фотореалистичной генерации с промтом
Пример фотореалистичной генерации с промтом

Как работает нейросеть

Работает на основе диффузионной модели: сначала добавляет шумы на изображения, на которых была обучена, а затем восстанавливает его с помощью процесса обратной диффузии, тем самым создавая новое уникальное изображение.

Особенность сервиса, отличающая ее от конкурентов — поддержка запросов на более чем 100 языках, в том числе русском. За это нейросеть особо ценится среди русских пользователей: им не нужно писать запросы на английском и работать с переводчиком.

Схема работы Kandinsky 2.2 проста: пользователь вводит текстовый запрос, нейросеть его обрабатывает и возвращается с готовым результатом.

Что умеет: функционал и возможности

Среди основных возможностей «Кандинский» можно выделить:

  • генерацию изображения по текстовому запросу;
  • совмещение изображений;
  • генерацию изображения на основе загруженного, можно в другой стилистике;
  • дорисовку изображения;
  • перенос стиля, очертания или позы с загруженного изображения на сгенерированную картинку.

Ключевые изменения для новой версии 2.2:

  • Повышение качества изображений. Сгенерированные изображения имеют разрешение до 1024 пикселей.
  • Возможность выбора соотношения сторон. В предыдущих версиях можно было создавать только квадратные изображения, обновление добавило вариативность. 
  • Возможность генерации стикеров. При добавлении к запросу слова «sticker» происходит удаление фона.
  • Фотореализм изображений. Изображения стали более живыми и «настоящими».
  • Появление функционала ControlNet. Инструмент позволяет вносить локальные изменения в генерацию, не переделывая ее с нуля.
Пример использования выделения контуров алгоритмом Канни для сохранения объекта и смены сцены. Источник изображения: habr.com
Пример использования выделения контуров алгоритмом Канни для сохранения объекта и смены сцены. Источник изображения: habr.com

Инструкция как пользоваться Kandinsky 2.2

Рассмотрим несколько самых популярных вариантов использования нейросети.

Генерация по текстовому запросу

Самое первое, что потребуется для генерации изображения в стандартном текстовом режиме — написать промт, или по-простому — запрос.

Формула Сбера для написания промтов выглядит так: 

Формула успешной генерации
Формула успешной генерации

Рассмотрим подробнее каждый из параметров:

  1. Объект. Описание объекта желательно делать подробным и с описанием деталей и особенностей объекта. 
  2. Например, молодая девушка с рыжими волосами и зелеными глазами сидит с черным котом.

  3. Фон. Окружение объекта тоже пишем красочным и детализированным.
  4. Например, «фон: загадочная комната с колдовскими атрибутами в старой избушке».

  5. Детали фона. Чтобы создать особую атмосферу изображения можно описать дополнительные детали, предметы фона.
  6. Например, «детали: череп коровы, пучок сушеных трав и цветов, банки и склянки с зельями».

  7. Стиль. В качестве стиля можно вписать один из доступных на текущий момент или попробовать описать свой вариант.

Доступные стили:

  1. Аниме.
  2. Детальное фото.
  3. Киберпанк.
  4. Кандинский.
  5. Айвазовский.
  6. Малевич.
  7. Пикассо.
  8. Гончарова.
  9. Классицизм.
  10. Ренессанс.
  11. Картина маслом.
  12. Рисунок карандашом.
  13. Цифровая живопись.
  14. Средневековый стиль.
  15. Советский мультфильм.
  16. 3D-рендер.
  17. Мультфильм.
  18. Студийное фото.
  19. Портретное фото.
  20. Хохлома.
  21. Новый год.

Например, укажем «Стиль: средневековый стиль, детальное фото».

Далее остается собрать это в единый промт и попробовать сгенерировать несколько изображений.

Общий промт: Молодая девушка с рыжими волосами и зелеными глазами сидит с черным котом. Фон: загадочная комната с колдовскими атрибутами в старой избушке. Детали: череп коровы, пучок сушеных трав и цветов, банки и склянки с зельями. Стиль: средневековый стиль, детальное фото.

Вставляем в поле для запроса на сайте fusionbrain.ai или в один из чат-ботов:

Интерфейс нейросети
Интерфейс нейросети

Получившийся результат с первой генерации:

Генерация рыжеволосой ведьмы с котом
Генерация рыжеволосой ведьмы с котом

Девушка-ведьма получилась очень современной и яркой, но изображение имеет существенные недостатки — шесть пальцев у девушки, немного странные глиняные горшки и вазы. Попробуем исправить запрос и сделать более мрачное логово ведьмы.

Отредактированный промт: Молодая девушка ведьма с рыжими волосами и зелеными глазами сидит с черным котом. Фон: мрачное логово ведьмы в старой избушке. Детали: череп коровы, пучок сушеных трав и цветов, зелья и эликсиры Стиль: средневековый стиль, детальное фото.

Промт и результат для исправления фона
Промт и результат для исправления фона

Общий фон стал таким как нужно, но по прежнему остается проблема с пальцами и появилась проблема с котами: они то еноты, то полосатые, то рыжие. Хотя промт имеет четкую характеристику — черный кот.

Пробуем добавить эти нюансы в поле с негативным промтом.

Прописывание ненужных деталей в поле с негативным промтом
Прописывание ненужных деталей в поле с негативным промтом

Даже с прописанным негативным промтом через раз получаются генерации котов не того цвета, добавление на изображение глиняной и железной посуды и прочие косяки.

Самый лучший результат генерации ведьмы с черным котом
Самый лучший результат генерации ведьмы с черным котом

Режим вариаций изображения

У чат-бота «Кандинского» есть функция генерации вариаций изображений по загруженному готовому примеру. 

Попробуем сгенерировать себе аватарку по загруженной фото. Первым шагом — запускаем бота.

Меню чат-бота
Меню чат-бота

Далее — выбираем /start и открываем встроенное веб-приложение с вариантами генераций. Выбираем пункт «Вариации картинки».

Кнопка приложения с кнопками доступных генераций
Кнопка приложения с кнопками доступных генераций

Загружаем свое фото, выбираем по кнопке веб-приложения соотношение сторон и ждем генерацию.

Загрузка фото для генерации
Загрузка фото для генерации

Результат получаем не совсем похожий на исходный портрет на фото, но вполне красивый.

Результат генерации аватарки по своему фото в режиме подбора вариаций
Результат генерации аватарки по своему фото в режиме подбора вариаций

Преимущества и недостатки Kandinsky 2.2

Преимущества:

  1. Бесплатный доступ к редактору, отсутствие платных тарифов.
  2. Отсутствие необходимости заходить под VPN.
  3. Поддержка 101 языка, в том числе русского.
  4. Простой интерфейс.
  5. Нет пользовательской ленты генераций, нет возможности просматривать генерации других людей и, соответственно, другие пользователи не видят наши генерации.
  6. Множество доступных стилей изображений.
  7. Возможность генерировать картинки с разными пропорциями.

Недостатки:

    • Нейросеть выдает персонажей с одинаковыми лицами и очень похожие фоны. Это можно использовать для создании иллюстраций, историй персонажа и т.д., но скорее всего причина в том, что нейросеть выдает подобие изображения на котором обучалось.
  • Плохо дорисовывает детали. Если изображение было сначала сгенерировано например, с пропорциями 16:9 а том нужно дорисовать до 1:1, дорисованные детали иногда выглядят странно.
Исходное сгенерированное изображение с пропорцией 16:9
Исходное сгенерированное изображение с пропорцией 16:9

При желании дорисовать кота с обрезанной макушкой до пропорции 1:1 нейросеть добавила к картинке странных деталей.

Дорисовка удивляет деталями
Дорисовка удивляет деталями
  • Часто обрезает макушки на горизонтальных картинках. Коты без ушей, люди с обрезанным лбом, олени без рогов и королевы без корон — увы, абсолютная норма «Кандинского» при генерации горизонтальных изображений.
Тот самый взгляд, когда не сгенерировали ни рожек ни ножек
Тот самый взгляд, когда не сгенерировали ни рожек ни ножек
  • Нет ленты и сохранения генераций. С одной стороны отсутствие ленты — это защита собственных картинок и идей, никто не может скопировать промт и сделать похожее. А минус в том же самом — нельзя нигде скопировать понравившийся промт и сделать похожее под себя. 
  • Сильные проблемы с руками. Другие нейросети до сих пор отличаются проблемой генерации конечностей и пальцев. Но проблема, как правило, в их количестве. Kandinsky 2.2 отличается генерацией излишне длинных, уродливых пальцев или даже похожих на клешни или копыта. Исправить эту проблему не помогает даже негативный промт.
Генерация длинных и уродливых пальцев
Генерация длинных и уродливых пальцев
  • Проблемы с котами. Первая нейросеть, из тех что мне приходилось тестировать, которая плохо генерирует котов. Они получаются то енотами, то драными и неприглядными, не того цвета что в запросе, со страшными глазами, с покусанными пчелой носами и прочее.
Проблема с генерацией котов
Проблема с генерацией котов
  • Непонимание контекста, сильные ляпы. Например, генерация курицы с коровье-козьей головой и петуха с утиным клювом.
Ляпы при генерациях
Ляпы при генерациях

Примеры использования нейросети

  1. Генерация красивых изображений людей, персонажей, иллюстраций.
  2. Девушка на фоне ночного города
    Девушка на фоне ночного города
  3. Генерация идей для создания рисунков и персонажей из пенки кофе.
  4. Кофе с пенкой-енотом
    Кофе с пенкой-енотом
  5. Создание идей костюмов и одежды.
  6. Собака в костюме эльфа
    Собака в костюме эльфа
  7. Идеи игрушек и сувениров.
  8. Страшный новогодний шарик-кот
    Страшный новогодний шарик-кот
  9. Веселый контент для соцсетей и развлечения.
Человек-паук в ресторане
Человек-паук в ресторане

Коротко о главном

  • Нейросеть Kandinsky 2.2 может использоваться как бесплатный аналог нашумевших зарубежных генераторов. Она имеет простой интерфейс, неограниченное количество генераций, возможность писать запросы на русском языке и отсутствие платных тарифов на текущий момент.
  • Генерируя изображения с помощью Kandinsky 2.2 можно не бояться, что кто-то украдет идеи или воспользуется промтами для генерации аналогов. У нейросети нет ленты пользовательских генераций и нельзя смотреть работы других пользователей.
  • В качестве генераций нейросеть пока уступает зарубежной Midjourney и более простому Leonardo AI, и некоторым российским — например, Шедеврум
  • Использовать нейросеть можно как на сайте, так и генерировать с помощью ботов «Телеграм» и ВК.

Оценить статью
10 ответов

Комментарии 1

Dana Sofronova
Написать комментарий
Статья отлично раскрывает многообразие нейросетей, которые могут значительно упростить выполнение различных задач, от работы и творчества до развлечений. Интересно, как такие инструменты могут поддерживать не только профессионалов, но и любителей, которые хотят попробовать что-то новое, не тратя при этом больших средств. Такие сервисы – настоящее открытие для людей, интересующихся ИИ. Я увлекаюсь ИИ и вот мой любимый сейчас
Ответить
Написать комментарий
Популярные статьи автора
Узнайте стоимость продвижения сейчас
Выберите удобный способ связи:
Выберите удобный способ связи:
Введите Ваш номер телефона:
Введите адрес Вашего сайта:
Введите Ваше имя:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Введите Ваш Email:
Введите адрес Вашего сайта:
Введите Ваше имя:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Вы уже проголосовали
Возьмем ТОП вместе?
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Цена лидов в различных нишах
Тематика Стоимость лида (Москва/Россия)
Отдых 500
Мебель 350
Оборудование 500
Бансковские услуги 500
Безопасность 500
Организация мероприятий, концерты, праздники 500
Недвижимость 500
Строительство и отделка 500
Грузоперевозки 500
Доставка еды 350
Юридические услуги 500
Бухгалтерские услуги 500
Пластиковые окна 500
Детские товары 350
Автозапчасти 350
Образование 500
Возьмем ТОП вместе?
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Оставить заявку сейчас
Выберите интересующую услугу *
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Подпишитесь на рассылку
Не пропустите самое интересное из мира SEO и Digital. Только актуальные и самые крутые статьи.
Заявка успешно отправлена!
Наши сотрудники уже приступили к анализу Вашего сайта. Наш менеджер свяжется с вами в течение дня, спасибо!