Учебник о том, как извлечь выбросы из списка чисел в Python.

Выброс определяется как человек или вещь, которая расположена вдали от основного тела или системы или отделена от нее. В статистике выброс — это чрезвычайно высокая или чрезвычайно низкая точка данных по отношению к ближайшей точке данных и остальным соседним сосуществующим значениям в наборе данных или графике. Это экстремальные значения, которые выделяются из общего набора значений в наборе данных или на графике.

Одна из проблем с выбросами в наборе данных заключается в том, что они могут негативно повлиять на статистические значения, полученные из набора данных. Измерения среднего значения, дисперсии и стандартного отклонения могут иметь разные показания, когда присутствуют выбросы, и поэтому эти крайние точки данных необходимо удалить, чтобы получить оптимальную точность измерений.

Существует множество алгоритмов, которые можно использовать для удаления выбросов, но я выбрал тот, который не вызывает ошибок при запуске. Псевдокод для функции удаления выбросов приведен ниже:

  1. Импортируйте библиотеку NumPy.
  2. Определите функцию del_outliers, которая принимает на вход список чисел.
  3. Отсортируйте список чисел и определите этот отсортированный список как other_list.
  4. Определите верхний и нижний квартили с помощью метода процентилей NumPy.
  5. Определите переменную iqr как верхний квартиль минус нижний квартиль, а затем умножьте это на 1,5.
  6. Определите пустой список, result_list.
  7. Определите q_set, который представляет собой нижний квартиль минус iqr и верхний квартиль плюс iqr.
  8. Создайте цикл for, который проходит через other_list. Если элемент y больше нижнего q_set и меньше верхнего q_set, добавьте этот элемент в result_list.
  9. Когда цикл for завершает итерацию, функция завершается. Функция вернет список результатов и длину списка результатов.

На скриншоте ниже показана распечатка функции del_outliers, чтобы убедиться, что она работает:

Таким образом, существует множество алгоритмов, которые можно использовать для удаления выбросов, но некоторые из них не работают и вызывают ошибку в системе. Я предпочитаю, чтобы все было просто, поэтому я выбрал описанный выше алгоритм.

Для этого поста я подготовил обзор кода, который можно посмотреть здесь: https://www.youtube.com/watch?v=2hXg4S_Ci-g.

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Посетите наш Community Discord и присоединитесь к нашему Коллективу талантов.