После получившей ошеломительную известность Midjourney появились куча аналогов с тем же функционалом, но работающих с русскими запросами, с бесплатным доступом и не требующих входа через VPN.
Одна из них — нейросеть Kandinsky 2.2. В статье разбираем особенности и функционал новой версии 2.2, делимся инструкцией как пользоваться нейросетью и писать промты для генераций.
Что такое Kandinsky
Kandinsky — это российская бесплатная нейросеть для генерации изображений от Sber AI, аналог популярной Midjourney. Нейросеть хорошо понимает запросы на русском языке, имеет возможность генерировать по текстовым промтам или на основе уже готовых фото и картинок.
Попробовать генерацию изображений можно на разных ресурсах:
- на сайте нейросети «Кандинский» Fusion Brain;
- в телеграм-боте;
- в боте ВК;
- с урезанным функционалом на сайте ruDALL-E;
- с помощью виртуального ассистента в приложении «Салют» от «Сбера»: по команде «Включи художника» приложение откроет нейросеть «Кандинский 2.2».
Kandinsky 2.2 — самое свежее обновление нейросети на текущий момент. Главная фишка, отличающая ее от предшественников — фотореализм. Изображения создаются с разрешением до 1024 пикселей и имеют высокий уровень детализации.
Как работает нейросеть
Работает на основе диффузионной модели: сначала добавляет шумы на изображения, на которых была обучена, а затем восстанавливает его с помощью процесса обратной диффузии, тем самым создавая новое уникальное изображение.
Особенность сервиса, отличающая ее от конкурентов — поддержка запросов на более чем 100 языках, в том числе русском. За это нейросеть особо ценится среди русских пользователей: им не нужно писать запросы на английском и работать с переводчиком.
Схема работы Kandinsky 2.2 проста: пользователь вводит текстовый запрос, нейросеть его обрабатывает и возвращается с готовым результатом.
Что умеет: функционал и возможности
Среди основных возможностей «Кандинский» можно выделить:
- генерацию изображения по текстовому запросу;
- совмещение изображений;
- генерацию изображения на основе загруженного, можно в другой стилистике;
- дорисовку изображения;
- перенос стиля, очертания или позы с загруженного изображения на сгенерированную картинку.
Ключевые изменения для новой версии 2.2:
- Повышение качества изображений. Сгенерированные изображения имеют разрешение до 1024 пикселей.
- Возможность выбора соотношения сторон. В предыдущих версиях можно было создавать только квадратные изображения, обновление добавило вариативность.
- Возможность генерации стикеров. При добавлении к запросу слова «sticker» происходит удаление фона.
- Фотореализм изображений. Изображения стали более живыми и «настоящими».
- Появление функционала ControlNet. Инструмент позволяет вносить локальные изменения в генерацию, не переделывая ее с нуля.
Инструкция как пользоваться Kandinsky 2.2
Рассмотрим несколько самых популярных вариантов использования нейросети.
Генерация по текстовому запросу
Самое первое, что потребуется для генерации изображения в стандартном текстовом режиме — написать промт, или по-простому — запрос.
Формула Сбера для написания промтов выглядит так:
Рассмотрим подробнее каждый из параметров:
- Объект. Описание объекта желательно делать подробным и с описанием деталей и особенностей объекта.
- Фон. Окружение объекта тоже пишем красочным и детализированным.
- Детали фона. Чтобы создать особую атмосферу изображения можно описать дополнительные детали, предметы фона.
- Стиль. В качестве стиля можно вписать один из доступных на текущий момент или попробовать описать свой вариант.
Например, молодая девушка с рыжими волосами и зелеными глазами сидит с черным котом.
Например, «фон: загадочная комната с колдовскими атрибутами в старой избушке».
Например, «детали: череп коровы, пучок сушеных трав и цветов, банки и склянки с зельями».
Доступные стили:
- Аниме.
- Детальное фото.
- Киберпанк.
- Кандинский.
- Айвазовский.
- Малевич.
- Пикассо.
- Гончарова.
- Классицизм.
- Ренессанс.
- Картина маслом.
- Рисунок карандашом.
- Цифровая живопись.
- Средневековый стиль.
- Советский мультфильм.
- 3D-рендер.
- Мультфильм.
- Студийное фото.
- Портретное фото.
- Хохлома.
- Новый год.
Например, укажем «Стиль: средневековый стиль, детальное фото».
Далее остается собрать это в единый промт и попробовать сгенерировать несколько изображений.
Общий промт: Молодая девушка с рыжими волосами и зелеными глазами сидит с черным котом. Фон: загадочная комната с колдовскими атрибутами в старой избушке. Детали: череп коровы, пучок сушеных трав и цветов, банки и склянки с зельями. Стиль: средневековый стиль, детальное фото.
Вставляем в поле для запроса на сайте fusionbrain.ai или в один из чат-ботов:
Получившийся результат с первой генерации:
Девушка-ведьма получилась очень современной и яркой, но изображение имеет существенные недостатки — шесть пальцев у девушки, немного странные глиняные горшки и вазы. Попробуем исправить запрос и сделать более мрачное логово ведьмы.
Отредактированный промт: Молодая девушка ведьма с рыжими волосами и зелеными глазами сидит с черным котом. Фон: мрачное логово ведьмы в старой избушке. Детали: череп коровы, пучок сушеных трав и цветов, зелья и эликсиры Стиль: средневековый стиль, детальное фото.
Общий фон стал таким как нужно, но по прежнему остается проблема с пальцами и появилась проблема с котами: они то еноты, то полосатые, то рыжие. Хотя промт имеет четкую характеристику — черный кот.
Пробуем добавить эти нюансы в поле с негативным промтом.
Даже с прописанным негативным промтом через раз получаются генерации котов не того цвета, добавление на изображение глиняной и железной посуды и прочие косяки.
Режим вариаций изображения
У чат-бота «Кандинского» есть функция генерации вариаций изображений по загруженному готовому примеру.
Попробуем сгенерировать себе аватарку по загруженной фото. Первым шагом — запускаем бота.
Далее — выбираем /start и открываем встроенное веб-приложение с вариантами генераций. Выбираем пункт «Вариации картинки».
Загружаем свое фото, выбираем по кнопке веб-приложения соотношение сторон и ждем генерацию.
Результат получаем не совсем похожий на исходный портрет на фото, но вполне красивый.
Преимущества и недостатки Kandinsky 2.2
Преимущества:
- Бесплатный доступ к редактору, отсутствие платных тарифов.
- Отсутствие необходимости заходить под VPN.
- Поддержка 101 языка, в том числе русского.
- Простой интерфейс.
- Нет пользовательской ленты генераций, нет возможности просматривать генерации других людей и, соответственно, другие пользователи не видят наши генерации.
- Множество доступных стилей изображений.
- Возможность генерировать картинки с разными пропорциями.
Недостатки:
- Нейросеть выдает персонажей с одинаковыми лицами и очень похожие фоны. Это можно использовать для создании иллюстраций, историй персонажа и т.д., но скорее всего причина в том, что нейросеть выдает подобие изображения на котором обучалось.
- Плохо дорисовывает детали. Если изображение было сначала сгенерировано например, с пропорциями 16:9 а том нужно дорисовать до 1:1, дорисованные детали иногда выглядят странно.
При желании дорисовать кота с обрезанной макушкой до пропорции 1:1 нейросеть добавила к картинке странных деталей.
- Часто обрезает макушки на горизонтальных картинках. Коты без ушей, люди с обрезанным лбом, олени без рогов и королевы без корон — увы, абсолютная норма «Кандинского» при генерации горизонтальных изображений.
- Нет ленты и сохранения генераций. С одной стороны отсутствие ленты — это защита собственных картинок и идей, никто не может скопировать промт и сделать похожее. А минус в том же самом — нельзя нигде скопировать понравившийся промт и сделать похожее под себя.
- Сильные проблемы с руками. Другие нейросети до сих пор отличаются проблемой генерации конечностей и пальцев. Но проблема, как правило, в их количестве. Kandinsky 2.2 отличается генерацией излишне длинных, уродливых пальцев или даже похожих на клешни или копыта. Исправить эту проблему не помогает даже негативный промт.
- Проблемы с котами. Первая нейросеть, из тех что мне приходилось тестировать, которая плохо генерирует котов. Они получаются то енотами, то драными и неприглядными, не того цвета что в запросе, со страшными глазами, с покусанными пчелой носами и прочее.
- Непонимание контекста, сильные ляпы. Например, генерация курицы с коровье-козьей головой и петуха с утиным клювом.
Примеры использования нейросети
- Генерация красивых изображений людей, персонажей, иллюстраций.
- Генерация идей для создания рисунков и персонажей из пенки кофе.
- Создание идей костюмов и одежды.
- Идеи игрушек и сувениров.
- Веселый контент для соцсетей и развлечения.
Коротко о главном
- Нейросеть Kandinsky 2.2 может использоваться как бесплатный аналог нашумевших зарубежных генераторов. Она имеет простой интерфейс, неограниченное количество генераций, возможность писать запросы на русском языке и отсутствие платных тарифов на текущий момент.
- Генерируя изображения с помощью Kandinsky 2.2 можно не бояться, что кто-то украдет идеи или воспользуется промтами для генерации аналогов. У нейросети нет ленты пользовательских генераций и нельзя смотреть работы других пользователей.
- В качестве генераций нейросеть пока уступает зарубежной Midjourney и более простому Leonardo AI, и некоторым российским — например, Шедеврум.
- Использовать нейросеть можно как на сайте, так и генерировать с помощью ботов «Телеграм» и ВК.
Комментарии 1