Современные нейросети для генерации изображений преобразуют текстовое описание в визуальный результат благодаря обучению на миллионах пар картинка текст собранных из открытых источников интернета. Пользователь вводит фразу на естественном языке описывающую желаемую сцену стиль композицию освещение и получает несколько вариантов изображений соответствующих запросу с той или иной степенью точности. Качество результата зависит от детализации описания использования художественных терминов и узнаваемых отсылок к конкретным техникам рисунка работам известных художников направлениям живописи.
Архитектура диффузионных моделей лежащая в основе большинства современных генераторов последовательно удаляет шум из случайного набора пикселей управляя этим процессом с помощью текстового вектора полученного из модели понимания языка. Кодировщик текста преобразует слова в многомерное пространство смыслов близкие понятия располагаются рядом технические термины группируются в отдельные кластеры клипарты. Декодер шума шаг за шагом уточняет изображение на каждом этапе уменьшая разницу между текущим состоянием и целевым распределением пикселей соответствующим текстовому запросу пользовательскому интерфейсу.
Глубина понимания контекста у нейросетей ограничена способностью удерживать связи между удалёнными частями описания особенно когда в тексте несколько действующих лиц и сложное взаимодействие объектов друг с другом и фоном окружающей среды. Фраза красный шар за синим кубом на зелёной траве под ярким солнцем может быть понята верно в девяноста процентах случаев а предложение женщина в длинном платье передаёт книгу мужчине в очках который сидит на скамейке в парке осенью вызывает ошибки в положении рук или лицах персонажей. Проблема с анатомией человека особенно пальцев рук и ног является общей слабостью современных генераторов изображений всех доступных моделей на рынке.
Копирование стиля конкретного художника возможно если его работы присутствовали в обучающей выборке в достаточном количестве для извлечения характерных черт мазка цветовой гаммы построения композиции линий света тени. Некоторые нейросети блокируют явные запросы с именами ныне живущих художников в целях защиты авторских прав и предотвращения создания подделок под их стиль продающихся на площадках как оригинальные произведения искусства. Стили давно умерших мастеров Возрождения или импрессионизма доступны без ограничений и часто используются для создания изображений в эстетике той или иной исторической эпохи.
Генерация лиц реальных людей также ограничена политиками безопасности разработчиков опасающихся использования технологии для создания дипфейков порнографического содержания или клеветнических материалов компрометирующих публичную личность политика руководителя государства. Запрос с именем узнаваемой знаменитости может быть отклонён или обработан с заменой черт лица на синтетически похожие не воспроизводящие реальные черты конкретного человека без намёка на документальную достоверность случайного совпадения. Возможность генерировать изображения по фотографии человека с сохранением узнаваемости существует в специализированных моделях требующих тонкой настройки на небольшом наборе картинок одного лица недоступной обычным пользователям через веб интерфейс стандартного облачного сервиса.
Права на сгенерированные изображения различаются в зависимости от условий использования конкретного сервиса оплаченного тарифа и юрисдикции регистрации компании разработчика нейросети. Многие сервисы на бесплатных тарифах забирают себе коммерческие права на все изображения созданные пользователем оставляя ему только некоммерческое использование с указанием авторства сервиса в подписи к публикации. Платные подписки чаще передают полные права на результат генерации заказчику за исключением изображений нарушающих чужие авторские права на конкретные персонажи или элементы узнаваемых произведений искусства.
Разрешение сгенерированных изображений ограничено вычислительными возможностями сервиса и варьируется от пятисотдвенадцати до тысячидвадцатичетырёх пикселей по короткой стороне апскейлу до четырёхкратного увеличения без потери качества. Увеличение разрешения через интерполяцию пикселей добавляет сглаживание но не восстанавливает мелкие детали которые не были сгенерированы на первом этапе из за недостатка вычислительной мощности затраченной на диффузионный процесс. Нейросети нового поколения способны генерировать изображения в высоком разрешении сразу без постобработки но требуют значительно больше времени умножая потребление энергии на каждого запроса пользователя. Управление результатами через случайное зерно позволяет получить разные вариации по одному и тому же тексту без изменения описания перегенерация добавочный счетчик каждый раз новый.
