контролируемое обучение часть 3
Непараметрические функции
- Они имеют более гибкое представление, которое не фиксируется заранее заданным количеством параметров.
- Количество параметров в непараметрических моделях может варьироваться в зависимости от размера и сложности обучающих данных.
- Эти модели имеют возможность изучать сложные отношения из данных, не навязывая строгих предположений о функциональной форме.
- Они учатся непосредственно на обучающих данных без явного представления функции в терминах фиксированных параметров.
- Идея состоит в том, что модель присваивает веса или релевантность обучающим выборкам на основе их близости или сходства с точкой входных данных.
- Примеры непараметрических моделей включают деревья решений, k-ближайших соседей (KNN), машины опорных векторов (SVM) и случайные леса.
В KNN функция модели для прогнозирования основана на средневзвешенном или большинстве голосов «k» ближайших соседей к точке входных данных.
- Веса определяются расстояниями между точкой входных данных и ее k ближайшими соседями.
- Оценщики плотности на основе точек
- точечное распределение смеси
- кодирование плитки и т. д.,
Преимущества непараметрических функций:
- Гибкость: непараметрические модели имеют более гибкое представление, что позволяет им фиксировать сложные взаимосвязи и закономерности в данных.
- Никаких предположений: непараметрические модели делают меньше предположений о базовом распределении данных, что делает их более универсальными.
- Ограничения непараметрических функций:
- Вычислительно интенсивные: непараметрические модели могут быть дорогостоящими в вычислительном отношении, особенно с большими наборами данных или сложными структурами.
- Интерпретируемость: непараметрические модели часто труднее интерпретировать по сравнению с параметрическими моделями.
Оценщики на основе баллов:
Непараметрический способ представления произвольных функций с точностью, ограниченной количеством точек.
- Основная идея точечных оценок плотности состоит в том, чтобы присвоить значение плотности каждой наблюдаемой точке данных, а затем объединить эти значения для оценки плотности в любой заданной точке пространства данных. Значение плотности, присвоенное каждой точке, отражает локальную плотность точек данных вокруг нее.
- мы применяем локальный гауссов для каждой точки данных (ядро), добавляем их все, чтобы получить функцию для точек данных.
- каждая точка влияет на функцию.
- В оценщике на основе точек есть набор точек, нам нужно знать вес каждой точки на основе данных соседей, и когда мы складываем их все вместе, мы получаем функцию.
- Каждая точка данных представляет собой местоположение конкретной (ядерной) функции, а ее вес представляет собой величину ее вклада.
- Функции ядра определяют изменение вклада значения функции при удалении от точки с точки зрения меры сходства.
- В KDE расчетная плотность в любой точке x получается путем суммирования вкладов от соседних точек данных, взвешенных с помощью функции ядра. Функция ядра K(u) определяет форму вклада каждой точки данных. Общие варианты включают ядро Гаусса (нормальное), ядро Епанечникова или треугольное ядро.
- Оценки, основанные на баллах, не предполагают конкретной функциональной формы базового распределения. Они могут фиксировать сложные и нелинейные отношения, не ограничиваясь предопределенными предположениями.
- Как правило, они устойчивы к выбросам и отклонениям от предположений. Они сосредоточены на локальном поведении данных и менее подвержены влиянию экстремальных значений или точек данных, которые не соответствуют предполагаемому распределению.
- Их можно применять для различных задач, таких как оценка плотности, регрессия, классификация и обнаружение аномалий.
- Оценки на основе точек могут хорошо работать с относительно небольшими наборами данных. Они могут фиксировать сложные детали и закономерности даже при ограниченном количестве выборок, что может быть выгодно в ситуациях, когда сбор данных требует больших затрат или времени.
Недостатки точечной оценки:
- Они могут быть вычислительно затратными для больших наборов данных.
- Выбор полосы пропускания или других параметров может повлиять на качество оценки.
- Они могут плохо работать в многомерных пространствах из-за «проклятия размерности».
Ссылка:
- https://www.tandfonline.com/doi/pdf/10.1080/01621459.1991.10475021?casa_token=wVxGlP2TnCMAAAAA:CK069mCm5Xlxr9MPXOGq9JE8kpIfveXXvPr2fzNrZFxZofJhSfL5j0pvlr9 RWr9Zixy87XMa8K0gCw
- https://www.cs.cmu.edu/~aarti/Class/10315_Fall19/lecs/Lecture21.pdf
- Заметки Letcure профессора Манфреда Хубера, Техасский университет в Арлингтоне.