Непараметрические функции и оценки на основе точек

контролируемое обучение часть 3

Непараметрические функции

Они имеют более гибкое представление, которое не фиксируется заранее заданным количеством параметров.
Количество параметров в непараметрических моделях может варьироваться в зависимости от размера и сложности обучающих данных.
Эти модели имеют возможность изучать сложные отношения из данных, не навязывая строгих предположений о функциональной форме.
Они учатся непосредственно на обучающих данных без явного представления функции в терминах фиксированных параметров.
Идея состоит в том, что модель присваивает веса или релевантность обучающим выборкам на основе их близости или сходства с точкой входных данных.
Примеры непараметрических моделей включают деревья решений, k-ближайших соседей (KNN), машины опорных векторов (SVM) и случайные леса.

В KNN функция модели для прогнозирования основана на средневзвешенном или большинстве голосов «k» ближайших соседей к точке входных данных.

Веса определяются расстояниями между точкой входных данных и ее k ближайшими соседями.
Оценщики плотности на основе точек
точечное распределение смеси
кодирование плитки и т. д.,

Преимущества непараметрических функций:

Гибкость: непараметрические модели имеют более гибкое представление, что позволяет им фиксировать сложные взаимосвязи и закономерности в данных.
Никаких предположений: непараметрические модели делают меньше предположений о базовом распределении данных, что делает их более универсальными.
Ограничения непараметрических функций:
Вычислительно интенсивные: непараметрические модели могут быть дорогостоящими в вычислительном отношении, особенно с большими наборами данных или сложными структурами.
Интерпретируемость: непараметрические модели часто труднее интерпретировать по сравнению с параметрическими моделями.

Оценщики на основе баллов:

Непараметрический способ представления произвольных функций с точностью, ограниченной количеством точек.

Основная идея точечных оценок плотности состоит в том, чтобы присвоить значение плотности каждой наблюдаемой точке данных, а затем объединить эти значения для оценки плотности в любой заданной точке пространства данных. Значение плотности, присвоенное каждой точке, отражает локальную плотность точек данных вокруг нее.

мы применяем локальный гауссов для каждой точки данных (ядро), добавляем их все, чтобы получить функцию для точек данных.
каждая точка влияет на функцию.
В оценщике на основе точек есть набор точек, нам нужно знать вес каждой точки на основе данных соседей, и когда мы складываем их все вместе, мы получаем функцию.
Каждая точка данных представляет собой местоположение конкретной (ядерной) функции, а ее вес представляет собой величину ее вклада.
Функции ядра определяют изменение вклада значения функции при удалении от точки с точки зрения меры сходства.
В KDE расчетная плотность в любой точке x получается путем суммирования вкладов от соседних точек данных, взвешенных с помощью функции ядра. Функция ядра K(u) определяет форму вклада каждой точки данных. Общие варианты включают ядро Гаусса (нормальное), ядро Епанечникова или треугольное ядро.

Оценки, основанные на баллах, не предполагают конкретной функциональной формы базового распределения. Они могут фиксировать сложные и нелинейные отношения, не ограничиваясь предопределенными предположениями.
Как правило, они устойчивы к выбросам и отклонениям от предположений. Они сосредоточены на локальном поведении данных и менее подвержены влиянию экстремальных значений или точек данных, которые не соответствуют предполагаемому распределению.
Их можно применять для различных задач, таких как оценка плотности, регрессия, классификация и обнаружение аномалий.
Оценки на основе точек могут хорошо работать с относительно небольшими наборами данных. Они могут фиксировать сложные детали и закономерности даже при ограниченном количестве выборок, что может быть выгодно в ситуациях, когда сбор данных требует больших затрат или времени.

Недостатки точечной оценки:

Они могут быть вычислительно затратными для больших наборов данных.
Выбор полосы пропускания или других параметров может повлиять на качество оценки.
Они могут плохо работать в многомерных пространствах из-за «проклятия размерности».

Ссылка:

https://www.tandfonline.com/doi/pdf/10.1080/01621459.1991.10475021?casa_token=wVxGlP2TnCMAAAAA:CK069mCm5Xlxr9MPXOGq9JE8kpIfveXXvPr2fzNrZFxZofJhSfL5j0pvlr9 RWr9Zixy87XMa8K0gCw
https://www.cs.cmu.edu/~aarti/Class/10315_Fall19/lecs/Lecture21.pdf
Заметки Letcure профессора Манфреда Хубера, Техасский университет в Арлингтоне.

Непараметрические функции и оценки на основе точек

Преимущества непараметрических функций:

Оценщики на основе баллов:

Недостатки точечной оценки:

Вопросы по теме