Предвзятость в решениях ИИ: почему большинство моделей ИИ бесполезны в практических сценариях

Шумиха вокруг ИИ ощущается как в литературе, так и в средствах массовой информации, и наблюдается всплеск приложений ИИ в различных областях, таких как компьютерное зрение, обработка естественного языка и так далее. В последние годы наблюдается геометрический прогресс в применении ИИ во многих отраслях. Например, резко возросло использование искусственного интеллекта в здравоохранении и медицине. В 2019 году эти фразы использовались почти в 9000 публикациях в медицинской литературе, что представляет собой четырехкратное увеличение по сравнению с предыдущими десятью годами.

Однако большинство современных моделей ИИ не подходят для реальных сценариев по разным причинам, одна из которых — предвзятость в решениях ИИ. На примере сектора здравоохранения мы обсудим типичную предвзятость решений ИИ в этом посте. Оставайтесь с нами, чтобы узнать, почему некоторые из этих моделей нельзя использовать в реальных сценариях.

В последние годы наблюдается рост использования AI Solutions в клинической практике. Однако неясно, будут ли эти решения более широко применимыми и полезными для всех групп населения. В недавних отчетах ставится вопрос о том, могут ли решения ИИ в здравоохранении на самом деле увековечить дискриминацию, если они обучены на исторических данных, которые часто нерепрезентативны для больших групп населения. Модели ИИ часто обучаются с использованием исторических или ретроспективных данных, которые часто получают из академических медицинских центров и вряд ли включают все группы населения, особенно разнообразные группы населения, для которых будут применяться решения ИИ. Модели ИИ, обученные исключительно на таких данных, усугубят различия и не смогут продемонстрировать внешнюю достоверность в более крупных сообществах пациентов. Растущий объем исследований выдвигает на первый план эту проблему, особенно для афроамериканцев в США, для которых поддержка принятия решений на основе ИИ часто не работает. Это, вероятно, вызвано недостаточным представлением разнообразия обучающих данных. недостаток знаний о прогрессировании заболевания в различных группах, а также недостаточная осведомленность людей о потенциальных побочных эффектах и ​​возможных предубеждениях в решениях ИИ.

В таких странах, как США, где существует неравенство в отношении здоровья, основанное на демографических данных пациентов, справедливость и предвзятость в решениях ИИ могут быть более серьезной проблемой. Поэтому крайне важно учитывать и понимать потенциальные демографические предубеждения, разработку базовой модели и развертывание по мере роста технологий в клинических контекстах.

Реальные примеры предвзятости ИИ

Мы рассмотрим несколько реальных примеров, иллюстрирующих проблему, чтобы понять возможность предвзятости в решениях ИИ. Начнем со случая сердечной недостаточности и гендерной дискриминации. Клинические утверждения, рекомендации и схемы лечения хронической сердечной недостаточности основаны на рандомизированных клинических исследованиях. Однако до недавнего времени мы не знали, что симптомы сердечного приступа у женщин отличаются от мужских, что вызывает различия в показателях смертности от сердечно-сосудистых заболеваний у мужчин и женщин. Эти признанные симптомы сердечного приступа можно использовать для создания модели. Аналогичная стратегия может быть применена к пациентам с триозом, которые обратились в отделение неотложной помощи с симптомами сердечного приступа. Однако проблема здесь в том, что модель была разработана на основе мужских признаков. Модель может быть очень точной для выявления мужчин с симптомами сердечного приступа, но она может не сработать для женщин, которые преследуют другие симптомы. Наша модель, по сути, делает мужской опыт сердечного приступа стандартом для всех сердечных приступов. Мы недостаточно изучили симптомы сердечного приступа у женщин на клиническом уровне, и уровни, на которых мы обучаем модель, во многих случаях не точны в отношении истинного явления, которое мы собираемся моделировать, сердечного приступа у обоих мужчин. и женщины. Прогностическая точность при сравнении с истинными клиническими исходами будет снижаться для женщин, но не для мужчин. Это смещение было выявлено в известном Фремингемском исследовании сердечно-сосудистых заболеваний.

Другим примером являются геномные базы данных, которые широко используются в исследовательском сообществе и выявляют значительную расовую предвзятость в собранных геномных образцах. Эти базы данных лежат в основе прецизионной медицины, где наша способность определить, виноват ли генетический вариант в конкретном заболевании или фенотипическом признаке, частично зависит от нашей уверенности в том, что вариант помечен как патогенный. Теперь мы в значительной степени полагаемся на общедоступные геномные базы данных для идентификации и маркировки вариантов генов. Однако исследования показывают, что эти базы данных в значительной степени отражают европейское происхождение и, по сути, в них отсутствует основная информация о патогенах для конкретных популяций, особенно для африканцев. Фактически, метаанализ более 2500 исследований со всего мира показал, что 81% участников исследований по картированию генома были выходцами из Европы. Это имеет серьезные последствия в реальном мире. Например, исследователи, которые используют эти общедоступные данные для изучения болезней, гораздо чаще используют геномные данные людей европейского происхождения, чем африканского, азиатского, латиноамериканского или ближневосточного происхождения. Следовательно, результаты генетических тестов лиц неевропейского происхождения могут быть менее точными, более сложными или просто недостижимыми. Разработка моделей ИИ на основе этих ориентированных на Европу общедоступных наборов геномных данных может привести к предвзятым решениям, более полезным для лиц европейского происхождения, что затруднит внедрение и интерпретацию результатов этих баз данных для широких слоев населения.

В более свежем примере новые данные свидетельствуют о том, что дерматология, управляемая искусственным интеллектом, может ежегодно спасать тысячи людей от рака кожи. В целом, пациенты с более темной кожей имеют более выраженные кожные заболевания и имеют более низкую выживаемость, чем пациенты со светлой кожей. Хотя есть оптимизм в отношении того, что ИИ улучшит показатели раннего выявления для всех, возможно, что только люди со светлой кожей выиграют из-за отсутствия включения пациентов с более темной кожей в обучение и разработку моделей. Это проблема не только пигментных поражений, но также могут быть недостатки в функциях, используемых для разработки и обучения алгоритмов ИИ, таких как местоположение поражения, возраст пациента и степень повреждения солнцем. Хотя было высказано предположение, что решения ИИ в дерматологии будут обнаруживать потенциальные раковые поражения кожи более точно, чем дерматологи. Опять же, проблема в том, что данные в моделях основаны в основном на светлокожих популяциях. Если алгоритм основывает большую часть своих знаний на том, как появляются кожные поражения на светлой коже, тогда вероятность диагностики поражений у цветных пациентов будет меньше, и, таким образом, решение ИИ принесет пользу. Эти примеры демонстрируют, насколько широко распространены проблемы справедливости и предвзятости в решениях ИИ для здравоохранения.

В результате принятие и полезность решений ИИ — это больше, чем просто достижение более высокой точности или учет других статистических показателей. Важно отметить, что не все модели с более высокой точностью применимы на практике. Подумайте о том, чтобы выйти за рамки прогнозов. Подумайте об этической применимости ваших моделей.

Я пишу статьи об искусственном интеллекте, робототехнике и обработке данных. Следуйте за мной для получения дополнительных статей. В следующей статье я напишу о том, почему большинство моделей не доходят до этапа развертывания.