контролируемое обучение часть 3

Непараметрические функции

  • Они имеют более гибкое представление, которое не фиксируется заранее заданным количеством параметров.
  • Количество параметров в непараметрических моделях может варьироваться в зависимости от размера и сложности обучающих данных.
  • Эти модели имеют возможность изучать сложные отношения из данных, не навязывая строгих предположений о функциональной форме.
  • Они учатся непосредственно на обучающих данных без явного представления функции в терминах фиксированных параметров.
  • Идея состоит в том, что модель присваивает веса или релевантность обучающим выборкам на основе их близости или сходства с точкой входных данных.
  • Примеры непараметрических моделей включают деревья решений, k-ближайших соседей (KNN), машины опорных векторов (SVM) и случайные леса.

В KNN функция модели для прогнозирования основана на средневзвешенном или большинстве голосов «k» ближайших соседей к точке входных данных.

  • Веса определяются расстояниями между точкой входных данных и ее k ближайшими соседями.
  • Оценщики плотности на основе точек
  • точечное распределение смеси
  • кодирование плитки и т. д.,

Преимущества непараметрических функций:

  • Гибкость: непараметрические модели имеют более гибкое представление, что позволяет им фиксировать сложные взаимосвязи и закономерности в данных.
  • Никаких предположений: непараметрические модели делают меньше предположений о базовом распределении данных, что делает их более универсальными.
  • Ограничения непараметрических функций:
  • Вычислительно интенсивные: непараметрические модели могут быть дорогостоящими в вычислительном отношении, особенно с большими наборами данных или сложными структурами.
  • Интерпретируемость: непараметрические модели часто труднее интерпретировать по сравнению с параметрическими моделями.

Оценщики на основе баллов:

Непараметрический способ представления произвольных функций с точностью, ограниченной количеством точек.

  • Основная идея точечных оценок плотности состоит в том, чтобы присвоить значение плотности каждой наблюдаемой точке данных, а затем объединить эти значения для оценки плотности в любой заданной точке пространства данных. Значение плотности, присвоенное каждой точке, отражает локальную плотность точек данных вокруг нее.

  • мы применяем локальный гауссов для каждой точки данных (ядро), добавляем их все, чтобы получить функцию для точек данных.
  • каждая точка влияет на функцию.
  • В оценщике на основе точек есть набор точек, нам нужно знать вес каждой точки на основе данных соседей, и когда мы складываем их все вместе, мы получаем функцию.
  • Каждая точка данных представляет собой местоположение конкретной (ядерной) функции, а ее вес представляет собой величину ее вклада.
  • Функции ядра определяют изменение вклада значения функции при удалении от точки с точки зрения меры сходства.
  • В KDE расчетная плотность в любой точке x получается путем суммирования вкладов от соседних точек данных, взвешенных с помощью функции ядра. Функция ядра K(u) определяет форму вклада каждой точки данных. Общие варианты включают ядро ​​Гаусса (нормальное), ядро ​​Епанечникова или треугольное ядро.

  • Оценки, основанные на баллах, не предполагают конкретной функциональной формы базового распределения. Они могут фиксировать сложные и нелинейные отношения, не ограничиваясь предопределенными предположениями.
  • Как правило, они устойчивы к выбросам и отклонениям от предположений. Они сосредоточены на локальном поведении данных и менее подвержены влиянию экстремальных значений или точек данных, которые не соответствуют предполагаемому распределению.
  • Их можно применять для различных задач, таких как оценка плотности, регрессия, классификация и обнаружение аномалий.
  • Оценки на основе точек могут хорошо работать с относительно небольшими наборами данных. Они могут фиксировать сложные детали и закономерности даже при ограниченном количестве выборок, что может быть выгодно в ситуациях, когда сбор данных требует больших затрат или времени.

Недостатки точечной оценки:

  • Они могут быть вычислительно затратными для больших наборов данных.
  • Выбор полосы пропускания или других параметров может повлиять на качество оценки.
  • Они могут плохо работать в многомерных пространствах из-за «проклятия размерности».

Ссылка:

  1. https://www.tandfonline.com/doi/pdf/10.1080/01621459.1991.10475021?casa_token=wVxGlP2TnCMAAAAA:CK069mCm5Xlxr9MPXOGq9JE8kpIfveXXvPr2fzNrZFxZofJhSfL5j0pvlr9 RWr9Zixy87XMa8K0gCw
  2. https://www.cs.cmu.edu/~aarti/Class/10315_Fall19/lecs/Lecture21.pdf
  3. Заметки Letcure профессора Манфреда Хубера, Техасский университет в Арлингтоне.