Поэтому в сегодняшнем посте я не собираюсь выполнять какие-либо задачи машинного обучения, это этап предварительной обработки данных ДНК и белков.

Обратите внимание, я взял часть кода из этого сообщения в блоге и этого сообщения в блоге. Так что, если вы хотите узнать больше о биоинформатике или одном горячем кодировании, ознакомьтесь с этими сообщениями в блоге.

Шаг 0 - Получите таблицу ДНК и белков

Таким образом, приведенный выше словарный код взят непосредственно из Начало в биоинформатике - превращение последовательностей ДНК в белковые последовательности Виджини Маллаваараччи с некоторыми небольшими изменениями. Нет терминального сигнала, потому что в задаче машинного обучения, которую я собираюсь выполнять, он не нужен.

Шаг 1. Создание последовательности ДНК и последовательности белка

Как видно выше, мы объявили некоторые гиперпараметры, которые представляют количество обучающих данных или длину белковой последовательности. И мы собираемся случайным образом выбрать пару последовательности ДНК и белка из словаря, объявленного на шаге 0.

Шаг 1.5 - Использование правила 1–4 для кодирования ДНК

Итак, есть несколько правил картирования ДНК для кодирования ДНК, однако в этом посте я буду использовать правило 1–4. Где мы назначаем (1 * 4) вектора каждой последовательности ДНК. А ниже - сгенерированная последовательность ДНК, а также закодированные данные.

Шаг 2 - Проверка сгенерированной белковой последовательности

Мы можем проверить правильность сгенерированной белковой последовательности, посмотрев на изображение выше.

Шаг 3. Одно горячее кодирование для белковой последовательности

Красный прямоугольник → повторяющийся белок A
Зеленый прямоугольник → повторяющийся белок T

Итак, поскольку у нас есть два повторяющихся белка, нам нужен только вектор (1 * 8) для представления каждого белка.

И вот оно! Очень просто, но идеально подходит для машинного обучения.

Интерактивный код

Я перешел на Google Colab для интерактивных кодов! Таким образом, вам понадобится учетная запись Google для просмотра кодов, а также вы не можете запускать сценарии только для чтения в Google Colab, поэтому сделайте копию на своей игровой площадке. Наконец, я никогда не буду спрашивать разрешения на доступ к вашим файлам на Google Диске, просто к сведению. Удачного кодирования!

Для доступа к коду нажмите здесь.

Заключительные слова

Из-за промежуточных экзаменов я не могу писать сообщения о машинном обучении. Однако, как только это закончится, я вернусь к их написанию!

Если будут обнаружены какие-либо ошибки, напишите мне на [email protected], если вы хотите увидеть список всех моих писем, пожалуйста, просмотрите мой сайт здесь.

Тем временем подпишитесь на меня в моем твиттере здесь и посетите мой веб-сайт или мой канал Youtube для получения дополнительной информации. Я также сделал сравнение Decoupled Neural Network здесь, если вам интересно.

Ссылка

  1. Начало в биоинформатике - превращение последовательностей ДНК в последовательности белков. (2017). К науке о данных. Получено 9 марта 2018 г. с сайта https://towardsdatascience.com/starting-off-in-bioinformatics-turning-dna-sequences-into-protein-sequences-c771dc20b89f.
  2. Анализ правил отображения бинарных признаков для распознавания промотора в несбалансированной последовательности ДНК…. (2018). Середина. Получено 9 марта 2018 г. с сайта https://medium.com/@SeoJaeDuk/analysis-of-binary-feature-mapping-rules-for-promoter-recognition-in-imbalanced-dna-sequence-c4b557fb3105.
  3. Браунли, Дж. (2017). Как выполнить одно горячее кодирование данных последовательности в Python - мастерство машинного обучения. Мастерство машинного обучения. Получено 9 марта 2018 г. с сайта https://machinelearningmaster.com/how-to-one-hot-encode-sequence-data-in-python/.
  4. [1] 2018. [Онлайн]. Доступно: https://www.researchgate.net/publication/224347982_Analysis_of_binary_feature_mapping_rules_for_promoter_recognition_in_imbalanced_DNA_sequence_datasets_using_Support_Vector_Machine. [Доступ: 07 марта 2018 г.].
  5. Генетический код. (2018). Geneinfinity.org. Получено 9 марта 2018 г. с сайта http://www.geneinfinity.org/sp/sp_gencode.html.