Резюме: для представления клинических данных в Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA) требуется, чтобы файлы аннотированных форм отчетов о случаях заболевания (aCRF) были объединены с наборами данных Стандартизированной модели табуляции данных (SDTM). Традиционно аннотирование CRF — это ручная и трудоемкая задача, часто выполняемая с помощью инструмента комментирования Adobe Acrobat. В этой статье представлен пакет Python, предназначенный для автоматизации процесса аннотирования, устранения ограничений существующих методов и оптимизации процесса. Мы обсудим основные функции, реализацию и преимущества нашего пакета Python, который может произвести революцию в процессе предоставления клинических данных.

Введение

Процесс представления клинических данных в Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA) имеет решающее значение для утверждения новых лекарств и методов лечения. Важнейшим аспектом этого процесса является аннотация пустых страниц форм отчетов о случаях (CRF), которые служат отправной точкой для создания модели стандартизированных таблиц данных (SDTM). Аннотированные файлы CRF (aCRF) должны быть объединены с наборами данных SDTM как часть пакета отправки клинических данных.

Традиционно аннотирование CRF представляет собой ручную трудоемкую задачу, обычно выполняемую с помощью инструмента комментирования Adobe Acrobat. Это включает в себя создание каждой аннотации по отдельности, ввод текста вручную и настройку параметров. Статистики и программисты долго боролись с этим процессом, разрабатывая различные методы и инструменты для автоматизации работы. Однако эти существующие решения часто имеют ограничения и недостатки, в том числе использование нескольких программ, создание файлов формата данных Forms (FDF) и требование ввода спецификации дизайна исследования (SDS), которая не всегда доступна.

В этой статье представлен всеобъемлющий пакет Python для автоматического аннотирования CRF, который устраняет ограничения существующих методов и упрощает процесс аннотирования. Наш пакет предлагает многочисленные преимущества по сравнению с традиционными методами и другими автоматическими инструментами, в том числе возможность обрабатывать как обновления версии CRF, так и новые исследования, упрощенный процесс с использованием только Python и Excel, необязательный ввод SDS, а также возможность фиксировать вопросы и их ответы. соответствующие отображения из аннотированных страниц CRF.

2. Основные функции пакета Python

Наш пакет Python предлагает несколько ключевых функций, которые отличают его от традиционных методов и других автоматических инструментов для аннотирования CRF:

2.1. Размещение обновлений версии CRF и новых исследований

Пакет предназначен для обработки обоих сценариев, когда пустая CRF предназначена для обновления версии CRF с помощью существующей старой aCRF ​​или когда пустая CRF предназначена для нового исследования. Эта гибкость позволяет использовать пакет в различных условиях клинических исследований.

2.2. Использование Python и Excel для оптимизации процесса

Пакет опирается исключительно на Python и Excel, что упрощает процесс для пользователей. Код Python можно запускать с помощью пакетных файлов простым щелчком мыши, что делает его удобным даже для тех, у кого нет опыта работы с Python. Файлы Excel, созданные из кода Python, предоставляют ручные контрольные точки для всех членов команды, обеспечивая точность на протяжении всего процесса.

2.3. Необязательный ввод паспорта безопасности

В отличие от других методов, наш пакет не требует обязательных входных данных SDS. Это устраняет значительный барьер для групп статистики и программистов, поскольку SDS не всегда доступен.

2.4. Комплексное покрытие процесса

Пакет охватывает весь процесс создания аннотаций, включая извлечение аннотаций из старой aCRF, чтение новых вопросов из новой CRF, сопоставление аннотаций для новых вопросов, добавление аннотаций в новую CRF и создание закладок. Большая часть процесса полностью автоматизирована, а ручная работа требуется только в нескольких необходимых контрольных точках.

2.5. Захват вопросов и соответствующих сопоставлений

Наш пакет может собирать вопросы и соответствующие им сопоставления с аннотированных страниц CRF, что позволяет создавать растущую базу данных сопоставлений в формате Excel.

Эта база данных хранит вопросы и их аннотации попарно, расширяясь с каждым новым aCRF, добавляемым в систему. Кроме того, мы внедрили в пакет метод сопоставления строк, который сравнивает строки новых и старых вопросов, чтобы найти наиболее подходящие старые вопросы для новых вопросов. Эта функция присваивает аннотации старых вопросов новым вопросам, что позволяет автоматически аннотировать совершенно новый вопрос. Эта новаторская возможность является значительным преимуществом нашего пакета Python.

3. Реализация пакета Python

Реализация нашего пакета Python включает несколько шагов, описанных ниже:

3.1. Извлечение аннотаций из старой aCRF

Пакет начинается с извлечения аннотаций из старого aCRF ​​с использованием комбинации библиотек Python, таких как PyPDF2 и pdfminer. Этот процесс гарантирует перенос всей соответствующей информации из предыдущей версии.

3.2. Чтение новых вопросов из новой CRF

Затем пакет считывает новые вопросы из новой CRF, используя технологию оптического распознавания символов (OCR), которая преобразует изображения текста в машинно-кодированный текст. Процесс OCR гарантирует, что новые вопросы точно фиксируются и могут быть правильно сопоставлены с существующими аннотациями.

3.3. Сопоставление аннотаций для новых вопросов

После прочтения новых вопросов пакет сопоставляет аннотации к этим вопросам, сравнивая их со старыми вопросами с помощью алгоритмов сопоставления строк. Этот процесс обеспечивает точное назначение аннотаций соответствующим вопросам в новой ИРК.

3.4. Добавление аннотаций к новой CRF

После сопоставления аннотаций для новых вопросов пакет добавляет эти аннотации в новую CRF с помощью библиотеки PyPDF2. На этом шаге создается обновленная форма aCRF, готовая к отправке в FDA.

3.5. Создание закладок

Наконец, пакет создает закладки для аннотированной CRF, облегчая рецензентам навигацию по документу. Это дополнительное удобство улучшает общее взаимодействие с пользователем для тех, кто просматривает aCRF.

4. Преимущества пакета Python

Наш пакет Python предлагает несколько преимуществ по сравнению с традиционными методами и другими автоматическими инструментами для аннотаций CRF:

4.1. Эффективность времени и ресурсов

Автоматизация процесса аннотирования CRF значительно экономит время и ресурсы, позволяя статистикам и программистам сосредоточиться на других важных задачах в процессе предоставления клинических данных.

4.2. Повышенная точность

Использование алгоритмов сопоставления строк и технологии OCR обеспечивает более высокий уровень точности в процессе аннотирования по сравнению с ручными методами. Эта повышенная точность имеет решающее значение для одобрения FDA.

4.3. Расширенное сотрудничество

Использование в пакете файлов Excel в качестве промежуточных шагов позволяет членам группы просматривать и проверять точность аннотаций на различных контрольных точках, способствуя сотрудничеству и способствуя контролю качества.

4.4. Масштабируемость

Растущая база картографических данных в формате Excel позволяет постоянно расширять возможности пакета, делая его более эффективным и действенным с каждым новым добавлением в систему aCRF.

Заключение

Наш пакет Python для автоматической аннотации CRF устраняет ограничения и недостатки существующих методов, оптимизируя процесс отправки клинических данных. Благодаря своим основным функциям и многочисленным преимуществам, наш пакет может произвести революцию в том, как группы клинических исследований аннотируют ИРК и представляют клинические данные в FDA. Автоматизируя процесс аннотирования и повышая точность, этот пакет не только экономит время и ресурсы, но также улучшает совместную работу и масштабируемость, что в конечном итоге способствует утверждению новых лекарств и методов лечения.