Что такое Kandinsky 2.0?

30 Ноя, 2022

Kandinsky 2.0 — это разработанная Сбером российская диффузионная модель для генерации изображений по тексту на разных языках. Она представлена на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey.

FusionBrain.ai — открытый портал для демонстрации моделей, приближающих мир к созданию AGI (Artificial General Intelligence, сильный искусственный интеллект) от Института AIRI, который Сбер решил поддержать, первым выложив свою модель на ресурсе. В Kandinsky 2.0 разработчики использовали набирающий популярность диффузионный подход, поскольку модели подобной архитектуры, в отличие от трансформеров, дают хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию (синтез изображений, видео, 3D и аудио).

На сайте FusionBrain изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. В модели также реализованы функции inpainting (замена любой части изображения и любого объекта на изображении на сгенерированные нейросетью) и outpainting (возможность дорисовывать готовое изображение и фон вокруг картинки).

Вот что получилось при наложении нескольких стилей на исходное изображение — фотография кота.

Довольно занятная безделушка…

Источник: Spark

 36 

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x