Как далеко мы продвинулись с моделями скрытой диффузии, часть 3 (машинное обучение)

SDXL: улучшение моделей скрытой диффузии для синтеза изображений с высоким разрешением (arXiv)

Автор: Дастин Поделл, Сион Инглиш, Кайл Лейси, Андреас Блаттманн, Тим Докхорн, Джонас Мюллер, Джо Пенна, Робин Ромбах.

Аннотация: Мы представляем SDXL, модель скрытой диффузии для синтеза текста в изображение. По сравнению с предыдущими версиями Stable Diffusion SDXL использует в три раза большую магистраль UNet: увеличение параметров модели в основном связано с большим количеством блоков внимания и более широким контекстом перекрестного внимания, поскольку SDXL использует второй текстовый кодировщик. Мы разрабатываем несколько новых схем кондиционирования и обучаем SDXL различным соотношениям сторон. Мы также представляем уточняющую модель, которая используется для улучшения визуальной точности выборок, сгенерированных SDXL, с использованием метода апостериорного преобразования изображения в изображение. Мы демонстрируем, что SDXL демонстрирует значительно улучшенную производительность по сравнению с предыдущими версиями Stable Diffusion и достигает результатов, конкурентоспособных с результатами современных генераторов изображений черный ящик. В духе продвижения открытых исследований и повышения прозрачности обучения и оценки больших моделей мы предоставляем доступ к коду и весам моделей по адресу https://github.com/Stability-AI/generative-models.

2. Исследование запоминания данных в 3D-моделях скрытой диффузии для синтеза медицинских изображений (arXiv)

Автор: Салман Уль Хассан Дар, Арман Ганаат, Джанник Кахманн, Изабель Эйкс, Теано Папавассилиу, Стефан О. Шёнберг, Сэнди Энгельхардт.

Аннотация: генеративные модели скрытой диффузии зарекомендовали себя как самые современные в области генерации данных. Одним из многообещающих приложений является создание реалистичных синтетических данных медицинской визуализации для открытого обмена данными без ущерба для конфиденциальности пациентов. Несмотря на обещание, способность таких моделей запоминать чувствительные данные обучения пациентов и синтезировать образцы, демонстрирующие высокое сходство с образцами обучающих данных, относительно не изучена. Здесь мы оцениваем способность к запоминанию трехмерных моделей латентной диффузии в наборах данных компьютерной томографии коронарных артерий с подсчетом фотонов и магнитно-резонансной томографии коленного сустава. Чтобы обнаружить потенциальное запоминание обучающих образцов, мы используем модели с самоконтролем, основанные на контрастном обучении. Наши результаты показывают, что такие модели латентной диффузии действительно запоминают тренировочные данные, и существует острая необходимость в разработке стратегий для смягчения запоминания.

Как далеко мы продвинулись с моделями скрытой диффузии, часть 3 (машинное обучение)

Вопросы по теме