Что такое Kandinsky 2.0?
30 Ноя, 2022
Kandinsky 2.0 — это разработанная Сбером российская диффузионная модель для генерации изображений по тексту на разных языках. Она представлена на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey.
FusionBrain.ai — открытый портал для демонстрации моделей, приближающих мир к созданию AGI (Artificial General Intelligence, сильный искусственный интеллект) от Института AIRI, который Сбер решил поддержать, первым выложив свою модель на ресурсе. В Kandinsky 2.0 разработчики использовали набирающий популярность диффузионный подход, поскольку модели подобной архитектуры, в отличие от трансформеров, дают хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию (синтез изображений, видео, 3D и аудио).
На сайте FusionBrain изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. В модели также реализованы функции inpainting (замена любой части изображения и любого объекта на изображении на сгенерированные нейросетью) и outpainting (возможность дорисовывать готовое изображение и фон вокруг картинки).
Вот что получилось при наложении нескольких стилей на исходное изображение — фотография кота.

Довольно занятная безделушка…
Источник: Spark