Новое исследование показывает, что стабильная диффузия может помочь в анализе медицинских изображений и лечении редких заболеваний. Как?

Существует так много редких заболеваний, и трудно строить модели, когда мало данных. Исследователи давно задавались вопросом, как можно получить больше данных. Может ли стабильная диффузия быть полезной в области медицины?

Редкие заболевания и недостаток данных

Хотя одно заболевание редкое (т. е. несколько случаев в год), их много, целых 7000. Многие из этих заболеваний не только неизлечимы, но и трудно диагностируются врачами.

Фактически, чем больше случаев видит врач, тем больше он может узнать. Как говорит Кристиан Блютген: Когда вы работаете в условиях скудных данных, ваша производительность коррелирует с опытом — чем больше изображений вы видите, тем лучше вы становитесь.

Есть много типов медицинских осмотров, которые производят изображения. Несмотря на большое количество изображений, качественных помеченных наборов данных не хватает. На самом деле маркировать эти наборы данных дорого и трудоемко. Кроме того, поскольку это сложные изображения, от тех, кто должен маркировать изображения (врачи или студенты-медики), требуется адекватное знание предмета.

Однако, даже если изображения не маркированы, каждое медицинское обследование имеет соответствующую медицинскую карту. Каждый раз, когда врач проводит обследование, он или она пишет отчет и заметки с описанием изображения.

С другой стороны, стабильная диффузия — это модель преобразования текста в изображение. Стабильная диффузия, начинающаяся с текстовой подсказки, может генерировать изображение (процесс генерирования изображения начинается с шумоподавления изображения с помощью преобразования текста). Почему бы не использовать стабильную диффузию для создания изображений в медицине? В конце концов, синтетические данные могут стать альтернативой там, где не хватает обучающих данных.

Стабильная диффузия для создания радиологических изображений

Рентгенография, несомненно, является наиболее широко используемым исследованием (а также самой старой системой визуализации). Поэтому исследователи из Стэндфорда подумали, что тонкую настройку стабильной диффузии можно использовать для создания изображений с использованием соответствующих медицинских ключевых слов.



В целом в последние годы сформировалась парадигма: модель основания. Идея состоит в том, чтобы обучить большую модель на огромном количестве данных без присмотра, а затем использовать ее для последующих задач.

Хотя во многих случаях это работает хорошо, в медицинской сфере это не так. Почему? Медицина и биология полны специфического жаргона и технических терминов, которые не так распространены в других областях, и это проблематично для универсальной модели.

Идея состоит в том, почему бы не добавить эти данные в обучающий набор стабильной диффузии. В конце концов, есть изображения и медицинские записи. Авторы утверждают, что в этой работе:

мы исследуем репрезентативные границы больших базовых моделей языка видения и оцениваем, как использовать предварительно обученные базовые модели для представления исследований и концепций медицинской визуализации, несмотря на то, что модели никогда не обучались явно этим концепциям.

Кратко напомним, что стабильная диффузия состоит из трех компонентов:

  • Текстовый кодировщик. Это модель CLIP, которая из текстовой подсказки создает 768-мерное скрытое представление.
  • Удаление шумов U-Net. U-Net начинает со случайного шума генерировать изображения в скрытом пространстве, и эта генерация обусловлена ​​скрытым текстовым представлением.
  • Вариационный автоэнкодер. Компонент декодера VAE преобразует скрытое представление, созданное U-Net, в пространстве пикселей (т. е. конечное изображение).

Авторы проверили возможность адаптации каждого из трех компонентов к конкретной области медицины. Для этого они использовали два больших набора данных рентгеновских снимков, из которых выбрали изображения и текстовые описания.

Кодировщик текста

Кодер текста должен предоставить текстовое представление для обработки. Проблема в том, что его замена может привести к катастрофическим последствиям, поэтому авторы его просто адаптировали. Используя три подхода:

  • первый, в котором они заменили текстовый кодировщик другим, обученным с данными, специфичными для предметной области.
  • Во-вторых, они создали текстовую проекцию.
  • Текстовая инверсия, метод, при котором они продолжали внедрять замороженные и добавляли новые токены, представляющие новые концепции. Например, авторы добавили такие токены, как ‹ легкое — рентген › и другие для представления болезней, частей тела и т. д. Во время обучения добавляется токен с небольшим количеством изображений, поэтому модель учится генерировать похожие изображения, связанные с этим токеном.

Результаты показывают, что специализированные модели на рентгене работают лучше, но все же ненамного лучше, чем сам CLIP. Другими словами, модели CLIP удается предоставить U-Net достаточно контекста для создания медицинских изображений.

Вариационный автокодер

Авторы решили сравнить вариационный автокодировщик стабильной диффузии (без дополнительного предварительного обучения) с VAE, который вместо этого был специально обучен на заболеваниях легких. Авторы сравнили точность реконструкции между двумя моделями.

Некоторые из аннотаций на исходных изображениях были перепутаны, поэтому они не были идеальными, но, руководствуясь подходом первых принципов, мы решили отметить это как возможность для будущих исследований. — Bluethgen, один из авторов (источник)

Результаты показывают, что на самом деле исходный VAE способен обеспечить хорошую реконструкцию. Конкретная модель достигает лучших результатов, но увеличение производительности не оправдывает замену

U-NET

Два других компонента в порядке; что оставляет U-Net. Может ли U-Net после того, как будет предоставлена ​​правильная текстовая обработка, создать правильные изображения?

С первой попытки первоначальная U-Net не знала, как генерировать медицинские изображения, но после некоторого дополнительного обучения мы смогли получить что-то полезное. Шамбон, еще один из авторов (источник)

Авторы в основном оставили другие компоненты замороженными и провели тонкую настройку U-Net с использованием рентгеновских изображений. Этот шаг очень похож на обучение исходной модели (они использовали потери MSE для восстановления скрытого распределения).

Затем авторы протестировали различные методы генерации изображений, отметив, что точная настройка модели позволила получить более качественные изображения:

Кроме того, после точной настройки модели ее можно использовать для получения реалистичных данных (изображений с аномалиями) и для модели, которая распознает аномалии на рентгеновских снимках.

Прощальные мысли

Эта работа показывает, как можно генерировать изображения со стабильной диффузией, которые можно использовать для обучения моделей глубокого обучения или дополнения набора данных.

Конечно, есть ограничения. Между тем, трудно измерить клиническую точность изображений; на самом деле, нужен рентгенолог, чтобы понять, хороший результат или нет (в любом случае это только качественная мера). С другой стороны, поскольку они использовали небольшую выборку для этой работы, сгенерированные изображения не отличались разнообразием. В-третьих, используемые подсказки в любом случае создаются специально (упрощенный текст), а не являются дословным отчетом рентгенолога.

Для этого авторы написали продолжение, в котором они обучили модель на гораздо большей выборке:



В любом случае эта модель доказывает, что можно использовать преобразование текста в изображение для создания медицинских синтетических данных. В будущем его можно будет распространить на другие заболевания, другие типы медицинских изображений и другие части тела.

Если вы нашли это интересным:

Вы можете найти другие мои статьи, вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи, и вы также можете подключиться или связаться со мной вLinkedIn. Если вы хотите поддержать меня, похлопайте и поделитесь, или вы также можете зарегистрироваться здесь (вы можете получить доступ ко всем историям на Medium, и я ll заработать небольшую комиссию без каких-либо дополнительных затрат для вас).

Вот ссылка на мой репозиторий GitHub, где я планирую собирать код и множество ресурсов, связанных с машинным обучением, искусственным интеллектом и многим другим.



или вас может заинтересовать одна из моих последних статей:









Повышение уровня кодирования

Спасибо, что являетесь частью нашего сообщества! Перед тем, как ты уйдешь:

  • 👏 Хлопайте за историю и подписывайтесь на автора 👉
  • 📰 Смотрите больше контента в публикации Level Up Coding
  • 💰 Бесплатный курс собеседования по программированию ⇒ Просмотреть курс
  • 🔔 Подписывайтесь на нас: Twitter | ЛинкедИн | "Новостная рассылка"

🚀👉 Присоединяйтесь к коллективу талантов Level Up и найдите прекрасную работу