Нейросети — это не баловство и развлечение, а полноценный рабочий инструмент для многих компаний. Но использовать для коммерческих нужд можно не каждую, большинство разрешает только некоммерческое использование.
В статье рассказываем о Stable Diffusion, которую можно использовать для любых целей. Делимся ссылками, где ее можно попробовать в работе и даем инструкции как это правильно делать.
Что такое Stable Diffusion
Stable Diffusion — это нейросеть для генерации изображений на основе введенного пользователем запроса, или по-другому — промта. По качеству генераций Stable Diffusion считается аналогом популярных Midjourney и Dall-E 3, но в отличии от них она бесплатна и допускает коммерческое использование.
Создателем SD является компания Stability AI и ее генеральный директор Эмад Мостак. Релиз состоялся в августе 2022 года. Stable Diffusion имеет открытый исходный код и может быть использована любым желающим для доработки под свои нужды или создания собственного ПО.
В конце февраля 2024 года Stability AI анонсировала выход Stable Diffusion 3. Она уже доступна в ранней версии по предварительной заявке и записи в лист ожидания. В опубликованных новостях говорится что новая версия будет превосходить DALL·E 3, Midjourney v6 и Ideogram v1.
Как работает Stable Diffusion
Stable Diffusion — это генеративная модель, которая принадлежит к диффузионным моделям и использует для генераций способ латентной диффузии (LDM).
Латентная диффузия текста в изображение — это способ создания новой картинки по текстовой подсказке, отдаленно похожей на те, по которым нейросеть обучалась. По запросу пользователя она ищет знакомые очертания на подходящих исходных изображениях в базе и соотносит их с текстом запроса. Далее с помощью прямой диффузии на найденную картинку накладываются гауссовские шумы до состояния, когда невозможно понять что было на изображении. После этого применяется обратная диффузия, которая поэтапно отменяет прямую диффузию, уменьшает шумы и происходит создание нового произведения.
Stable Diffusion был обучен на наборе данных с обходом интернета 2b English language label subset of LAION 5b, который является одним из самых больших наборов данных в мире, содержащем более 5,85 миллиардов пар картинка-текст. Это помогает ей хорошо понимать запросы пользователей и генерировать релевантные картинки высокого качества.
Преимущества и недостатки
К преимуществам Stable Diffusion можно отнести:
- возможность бесплатного использования в консоли и бесплатные тарифы на сайтах и сервисах;
- открытый исходный код;
- лицензия Creative ML OpenRail-M, допускающая коммерческое использование;
- высокое качество сгенерированных картинок;
- наличие разных вариантов работы: с помощью консоли, через сайты, приложения или телеграмм бот;
- можно использовать чужие картинки, они не имеют авторских прав, являются общественным достоянием и доступны в соответствии с лицензией CC0 1.0 Universal Public Domain Dedication;
- у версий с графическим интерфейсом есть расширенные настройки.
Среди недостатков можно выделить:
- автор не имеет авторских прав на созданное изображение, это общественное достояние;
- работа с исходным кодом или приложением на ПК требует высоких мощностей компьютера;
- для работы с исходной версией требуются навыки программирования и настройки программ;
- программы для ПК и сайты не всегда оперативно обновляются и используют последнюю версию.
Доступные интерфейсы для работы со Stable Diffusion
Попробовать Stable Diffusion может абсолютно каждый желающий, потому что у нее есть вариации работы с устройством любой мощности и на любой платформе. Нейросеть доступна для работы через:
- консоль;
- программы для ПК;
- сайты;
- телеграмм-боты.
Рассмотрим подробнее каждый из вариантов, его плюсы и минусы.
Консоль
Использование версии от разработчика подойдет опытным пользователям при наличии двух факторов:
- Мощный компьютер с хорошей видеокартой, процессором и большим объемом оперативной памяти;
- Навыки программирования.
Свежие версии Stable Diffusion, ее модели и дополнения можно найти на Github Stability AI.
На ПК
Программы на компьютер также как и консоль требовательны к мощности вычислительной машины. При использовании приложений на минимальных системных требованиях генерации могут быть долгими, а доступное качество — слишком низкое.
Плюсы у метода такие же, как и у консоли:
- все действия происходят на компьютере;
- нет очередей генерации;
- результаты генераций хранятся на компьютере и не отправляются в облако;
- вы не зависите от сбоев сайта, блокировок и т. д.
Минусы:
- программы обычно работают со старыми версиями;
- обновление программ происходит не часто;
- требовательны к конфигурации компьютера.
Рассмотрим программы для ПК подробнее.
Easy Diffusion v3.0.7
Сайт: https://github.com/easydiffusion/easydiffusion
Это простая программа, которая скачивается и устанавливается в пару кликов, имеет понятный интерфейс. Работает не как приложение с модальными окнами, а развертывает данные на локальном сервере. Требовательна к мощности компьютера, с минимальной оперативной памятью в 8 Гб максимальное доступное разрешение: 384x384px. Доступна для Windows, macOS и Linux.
Системные требования:
- Windows: видеокарта NVIDIA (минимум 2 Гб ОЗУ);
- Linux: видеокарта NVIDIA или AMD (минимум 2 Гб ОЗУ);
- Mac с процессором М1 и М2;
- минимум 8 Гб системной оперативной памяти;
- не менее 25 Гб места на жестком диске.
DiffusionBee
Сайт: https://diffusionbee.com/
Программа имеет простой и понятный интерфейс. Поддерживает большинство привычных функций и настроек Stable Diffusion. Работает с моделями SD 1.x, SD 2.x, SD XL, Inpainting, ControlNet, LoRA.
Системные требования:
- процессор Intel или M1/M2;
- для Intel: MacOS 12.3.1 или новее;
- для M1/M2: MacOS 11.0.0 или новее.
На сайтах
Преимущество работы на сторонних сайтах в том, что все генерации происходят на удаленном сервере и для пользователя неважно, насколько у него мощный компьютер — на скорость генерации это никак не повлияет.
Сервисы отличаются графическим интерфейсом, наличием дополнительных настроек, некоторые имеют платные тарифы с расширенными возможностями.
Официальные представители Stable Diffusion в России
Stable Diffusion Онлайн — платформа, которая является официальным представителем компании Stability AI в России. На сайте нет бесплатных тарифов, оплата генераций происходит за токены (прим. внутренняя валюта сайта). Возможности бесплатно попробовать продукт на сайте тоже нет.
Пользуясь платформой и оплачивая токены, пользователь получает доступ к платформе AIR, где помимо Stable Diffusion можно использовать другие нейросети.
Из графических нейросетей на платформе доступны популярные Dalle и Midjourney.
DreamStudio
Сайт: https://beta.dreamstudio.ai/generate
один из самых популярных сайтов для работы со Stable Diffusion. Имеет приятный и простой интерфейс, дает бесплатные кредиты (прим. внутреннюю валюту сайта) для первых генераций. Авторизоваться можно с аккаунтом Google или Discord.
Стоимость покупки дополнительных кредитов начинается от 10$ за 1000 кредитов, их хватит примерно на 5 000 картинок.
Помимо генерации изображений сервис поддерживает режим дорисовки, с его помощью можно добавить или удалить часть изображения, но дорисовки часто выглядят как заплатки. По запросу предлагается на выбор 4 варианта дорисовок.
Stable Diffusion Online
Сайт: https://stablediffusionweb.com/
Онлайн-сервис для генерации изображений. Имеет русскоязычный интерфейс редактора, дает бесплатные кредиты (прим. внутренняя валюта сайта) для первых генераций. Авторизация происходит с помощью Google-аккаунта. Работает с последними версиями, что позволяет генерировать изображения высокого качества и детализации.
Поддерживает:
- создание изображения по текстовому запросу;
- создание изображения на основе другого изображения;
- удаление фона;
- волшебный ластик;
- редактирование.
ClipDrop
Сайт: https://clipdrop.co/
Cервис, где есть платные и бесплатные версии SD. Бесплатно можно генерировать на модели Stable Diffusion XL Turbo. Она не дает дополнительных расширенных настроек, можно только ввести запрос и получить изображение среднего качества. Полные версии генераций и самые свежие модели доступны только на платном тарифе. Авторизоваться можно через аккаунт Google.
Mage.Space
Сайт: https://www.mage.space/
Cервис, поддерживающий бесплатную генерацию на SD XL, SD 1.5 и SD 2.1. Для генераций не требуется авторизация, нет ограничений и внутренней валюты для генерации. Внутри сервиса есть платные тарифы: они поддерживают более быструю и приоритетную скорость создания изображений, открывают доступ к другим моделям и версиям, дают генерировать больше одной картинки за один раз. Авторизоваться можно с помощью учетной записи Google.
Результаты генераций, даже с тегами «фотореализм, фотография» на последней доступной модели в бесплатном тарифе SD XL выходят больше похожими на картину нежели на реалистичную фотографию.
Playground Ai
Сайт: https://playground.com/
Бесплатный сервис для генерации изображений, дающий 100 бесплатных генераций в сутки. Работает с Playground и Stable Diffision XL. Имеет множество расширенных настроек, значительно повышающих качество генерации. Авторизоваться можно с аккаунтом Google.
Бот в Telegram
Работать со Stable Diffusion можно в том числе с мобильных устройств. Взаимодействие с чат-ботом поможет создать картинку для соцсетей, подобрать иллюстрацию для контента или протестировать идею.
Алгоритм работы с ботом простой:
- Открыть бот Devoid Diffusion и нажать «Start».
- Подписаться на сообщество бота.
- Перед первой генерацией смотрим настройки бота по умолчанию, при необходимости меняем:
- После смены настроек переходим к генерациям. В другом меню выбираем тег /gen.
- Вводим первый промпт и нажимаем на отправку. В день доступны 20 бесплатных генераций. Писать промпт лучше на английском языке.
- Получаем результат. При необходимости, меняем настройки и пишем новый промпт.
Как пользоваться нейросетью
Так как способов взаимодействия со Stable diffusion множество — сайты, сервисы, приложения, чат-боты, консоль — единой инструкции по использованию быть не может. Все интерфейсы имеют разные настройки, параметры, используют разные модели.
Самыми удобными и гибкими из перечисленных вариантов можно выделить сайт Playground и DreamStudi. Второй требует покупки внутренней валюты, а первый имеет 100 бесплатных генераций в сутки, поэтому рассмотрим алгоритм работы в Playground.
Генерация изображений по текстовому описанию
Интерфейс генерации по текстовому запросу похож во многих приложениях: он имеет поле для ввода запроса, негативного запроса и расширенные настройки генерации.
1 этап. Формулируем запрос
Если знания английского недостаточны, используем переводчик и упаковываем в него свое видение будущей картинки.
2 этап. Добавляем запрос в сервис, выбираем настройки.
Готовый запрос копируем в поле «prompt», выбираем подходящий фильтр, если такой имеется и нажимаем «Generate».
3 этап. Корректировка результатов
Если результат оправдал ожидания, без лишних затрат времени скачиваем его и забираем к себе. Если нет — дорабатываем. В качестве доработки можно:
- откорректировать запрос, убрать лишнее и добавить недостающее;
- сменить фильтр;
- поменять пресеты или модели;
- подкрутить настройки детализации и соответствия запросу;
- выбрать другой размер изображения;
- указать большее число изображений для генерации.
Если в целом запрос хорошо отработал, но среди вариантов нет нужного и каждая картинка имеет какие то недостатки — можно прогнать тот же запрос еще раз.
Дорисовка набросков
Наброски на сайт могут быть загружены готовые или нарисованы от руки. Нейросеть понимает и может работать с обоими вариантами.
При нажатии на значок карандаша, откроется белый холст. Среди инструментов у него есть карандаш, ластик и кнопка отмены действия.
Дополнительно с загрузкой картинки или рисованием наброска стоит написать небольшой промпт, который поможет лучше понять ожидания. В примере был добавлен «Bright detailed bee».
Создание изображений в стиле известных художников
Stable diffusion хорошо понимает запросы с упоминанием стилей художников, так как была обучена в том числе на их работах. Для генерации достаточно указать в запросе в стиле какого художника нужно создать изображение.
У SD есть в открытом доступе список художников на котором она обучалась или можно использовать список от Google.
Коротко о главном
- Stable Diffusion — одна из топовых нейросетей для генерации изображений. Может быть использована для фана и развлечения, или быть серьезным инструментом для работы и коммерческого использования.
- SD можно использовать разными способами: в консоли, на сайтах, в приложениях и сервисах, с помощью чат-ботов. Если компьютер слабый — подойдут сайты, если мощный и есть навыки программирования — можно работать в консоли.
- Stable diffusion рекомендуется тем, кто интересуется генерацией изображений, искусственным интеллектом или творчеством. Она хорошо подойдет в качестве первой нейросети для изучения и порадует качеством.
Материалы:
- Беликов А. Г. «Установка Stable Diffusion с веб интерфейсом»
- Дунец Р.И., Федосова А.А. «Нейросети в искусстве: современные тенденции и перспективы развития»
- Анонс выхода Stable Diffusion 3
- Stable Diffusion 3: Research Paper
- Ромен Бомон, LAION-5B: a new era of open large-scale multi-modal datasets
- The BigScience OpenRAIL-M License
- CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
- Список художников, на которых обучалась SD
- Список известных художников от Google
Комментарии