Обработка выбросов в машинном обучении

· Что такое выбросы?

Выбросы — это те точки данных, которые значительно отличаются от других наблюдений, присутствующих в данном наборе данных. Это может произойти из-за изменчивости измерений и из-за неправильной интерпретации заполнения точек данных.

Например: Если мы обсуждаем заработную плату учащихся в классе, где учащиеся получают зарплату 20 000, 30 000, 40 000. Но что, если вдруг в этом классе сядет Илон Маск. Тогда средняя зарплата в этом классе будет в крорах или миллионах.

· Как выбросы вводятся в набор данных?

Вот несколько распространенных причин выбросов в наборе данных:

1) Ошибки при вводе данных. Человеческие ошибки, такие как ошибки во время сбора, записи или ввода данных, могут привести к выбросам в данных.

2) Ошибки измерительного прибора. Это наиболее распространенная ошибка, вызванная неисправностью используемого измерительного прибора.

3) Естественные выбросы. Если выброс не является искусственным, он является естественным выбросом. Большинство реальных данных относятся к этой категории.

· Когда выбросы опасны?

Иногда нам приходится удалять выбросы и больше не думать о них.

Например: если у нас есть столбец возраста, а возраст кого-то (человека) составляет 300 лет, предполагается, что это человеческая ошибка при вводе данных. Мы должны удалить эти выбросы.

Во многих случаях выбросы считаются полезными для набора данных, и нам нужно подумать, прежде чем удалять их.

Существует алгоритм обнаружения аномалий, который обычно используется для обнаружения мошенничества, когда мы хотим знать, есть ли какие-либо проблемы с выпиской по кредитной карте, и мы хотим обнаружить выбросы, в то время как мы не можем удалить выбросы.

Поэтому нам нужно подумать, прежде чем удалять или оставлять их.

И часто очень сложно понять, что нужно делать с выбросами, чтобы сохранить их, удалить или внести изменения.

· Как влияют выбросы на алгоритмы машинного обучения?

В машинном обучении есть определенные наборы алгоритмов, которые дают плохие результаты, если выбросы не обрабатываются.

Эти алгоритмы:

1) Линейная регрессия

2) Логистическая регрессия

3) Адабуст

4) Глубокое обучение

Все вышеперечисленные алгоритмы вычисляют веса, а для вычисления весов необходимо обрабатывать выбросы.

С другой стороны, древовидный алгоритм не оказывает большего влияния на выбросы, потому что они фактически разрезают пространство данных в зависимости от условия, они разрезают ось.

· Как обращаться с выбросами?

А) Обрезка:

На приведенном выше изображении термин «Обрезка» означает полное удаление выбросов. Проблема с методом обрезки заключается в том, что у нас больше процентов выбросов в наборе данных, и мы используем технику обрезки, что приводит к уменьшению объема данных, и данные становятся тонкими. Принимая во внимание, что это также считается самым быстрым методом обработки выбросов.

B) Ограничение:

В то время как Capping означает ограничение (замену) данных как с левой, так и с правой стороны распределения. Выбросы всегда будут слева и справа, поэтому мы можем установить ограничение для обеих сторон. Например: если мы решим, что предел в левой части распределения равен 1, а в правой части равен 99, то любое значение ниже или выше предела определяет будет заменен (ограничен) на 1 или 99 соответственно. Существует несколько формул и методов для определения этого предела ограничения; некоторые из них подробно описаны в следующем разделе этой статьи.

C) Дискретизация:

Более того, дискретизация — это метод, в котором мы должны создать диапазон значений, таких как 0–10, 10–20, 20–30 и 30 и выше. Теперь все непрерывные значения в столбце будут распределены по этим диапазонам. Если столбец имеет значение 1000, которое идентифицируется как выброс; будет заменен категорией «30+», и это приведет к обработке выброса.

D) Рассматривать как отсутствующие значения:

В то время как последний метод говорит об отсутствующих значениях. Мы можем рассматривать выбросы как отсутствующие значения в данных (столбце). Мы можем определить выбросы и заменить их на NaN. Теперь мы можем использовать множество различных методов вменения отсутствующих значений,например,вменитель KNN и итеративный вменитель для заполнения пропущенных значений. Дополнительные методы вменения см. в разделе Обработка пропущенных значений.

Но в основном известны 2 метода обработки выбросов: 1) обрезка и 2) укупорка.

· Как обнаружить выбросы?

Существует множество различных способов обнаружения выбросов, но 3 основных метода являются важными и известными.

Метод Z-оценки. Этот метод часто называют методом обнаружения и удаления выбросов нормального распределения.

Первое предположение перед использованием метода z-оценки заключается в том, что данные (столбец) должны быть «гауссовыми» или нормально распределенными, что также означает, что больший процент значений находится в центре и меньше значений по обеим сторонам, как показано на рисунок выше.

Во-вторых, любое значение, лежащее за пределами µ + 3(σ) и µ — 3(σ), называется выбросом.

Теперь, обнаружив выбросы с помощью метода z-оценки, мы можем обрабатывать эти выбросы двумя разными способами:

→ Обрезка: мы можем удалить данные, лежащие за пределами µ + 3(σ) и µ — 3(σ). Например: если у нас есть нормально распределенный столбец с 1000 строками, из которых 5 значений лежат за пределами µ + 3(σ) и µ — 3( σ), тогда мы можем удалить эти 5 значений, и наши новые данные будут содержать 995 значений.

→ Ограничение: мы можем ограничить (заменить) выбросы, обнаруженные с помощью метода z-оценки, сохранив пороговое значение с обеих сторон. Порог должен поддерживаться верхним и нижним пределами, где верхний предел = µ + 3(σ), а нижний предел = µ — 3(σ). Итак, если наш столбец (данные) имеет верхний предел 55 и нижний предел 2, то любые значения, лежащие после 55 и ниже, будут заменены числами соответственно.

2) Метод IQR (межквартильный диапазон): этот метод часто называют асимметричным распределением для метода обнаружения и удаления выбросов.

При использовании этого метода предполагается, что данные (столбец) смещены влево или вправо и не распределены нормально, как показано на рисунке выше.

Для этого конкретного столбца нам нужно найти его выброс, найдя IQR, Q1, Q3, верхний предел и нижний предел.

Здесь верхний предел = Q1–1,5 *IQR

Нижний предел = Q3 + 1,5 *IQR

Теперь любые значения, лежащие за пределами и выше верхнего или нижнего предела, считаются выбросами.

После обнаружения выбросов с помощью метода IQR мы можем обрабатывать эти выбросы, обрезая или ограничивая их.

3) Процентное распределение. В этом методе мы создаем пороговое значение для обеих сторон данных (столбца). В зависимости от нашей бизнес-задачи мы создаем пороги с обеих сторон, как показано на изображении ниже.

Для этой задачи мы сохранили 2,5-й процентиль слева и 97,5-й процентиль справа от данных (столбца). Таким образом, любое значение в левой части столбца, которое меньше 2,5-го процентиля и больше 97,5-го процентиля, считается выбросом.

После обнаружения выбросов мы можем справиться с ними с помощью методов обрезки и ограничения. Здесь метод укупорки также известен как метод винсоризации.