Основы алгоритма K ближайших соседей



  1. PL-kNN: классификатор ближайших соседей без параметров(arXiv)

Автор: Данило Самуэль Джодас, Леандро Апаресидо Пассос, Ахсан Адил, Жоао Паулу Папа

Вывод:требования минимальной настройки параметров в моделях машинного обучения желательны, чтобы избежать трудоемких процессов оптимизации. k-ближайших соседей — одна из самых эффективных и простых моделей, используемых во многих задачах. Несмотря на его хорошо известную производительность, для конкретного распределения данных требуется значение k, что требует дорогостоящих вычислительных усилий. В этой статье предлагается классификатор k-ближайших соседей, который не требует определения значения k. Модель вычисляет значение k адаптивно, учитывая распределение данных обучающей выборки. Мы сравнили предложенную модель со стандартным классификатором k-ближайших соседей и двумя безпараметрическими версиями из литературы. Эксперименты с 11 общедоступными наборами данных подтверждают надежность предложенного подхода, поскольку полученные результаты были аналогичны или даже лучше, чем его аналоги.

2. Помимо kNN: адаптивные графы с разреженными соседями с помощью оптимального транспорта(arXiv)

Автор: Тэцуя Мацумото, Стивен Чжан, Джеффри Шибингер.

Аннотация. Графики ближайших соседей широко используются для отображения геометрии или топологии набора данных. Одна из наиболее распространенных стратегий построения такого графа основана на выборе фиксированного числа k ближайших соседей (kNN) для каждой точки. Однако эвристика kNN может стать неподходящей, если плотность выборки или уровень шума варьируются в разных наборах данных. Стратегии, которые пытаются обойти это, обычно вводят дополнительные параметры, которые необходимо настроить. Мы предлагаем простой подход к построению адаптивного графа окрестностей по одному параметру на основе квадратично регуляризованного оптимального транспорта. Наши численные эксперименты показывают, что графы, построенные таким образом, хорошо работают в приложениях для обучения без учителя и частично с учителем.

3. ReuseKNN: повторное использование окружения для дифференцированно частных рекомендаций на основе KNN(arXiv)

Автор: Питер Мюлльнер, Элизабет Лекс, Маркус Шедл, Доминик Ковальд

Вывод:рекомендательные системы KNN на основе пользователей (UserKNN) используют рейтинговые данные k ближайших соседей целевого пользователя в процессе рекомендации. Это, однако, увеличивает риск конфиденциальности соседей, поскольку их рейтинговые данные могут быть раскрыты другим пользователям или злоумышленникам. Чтобы уменьшить этот риск, существующая работа применяет дифференциальную конфиденциальность, добавляя случайность к рейтингам соседей, что снижает точность UserKNN. В этой работе мы представляем ReuseKNN, новую дифференциально-частную рекомендательную систему на основе KNN. Основная идея состоит в том, чтобы определить небольшие, но повторно используемые районы, чтобы (i) только минимальный набор пользователей требовал защиты с дифференциальной конфиденциальностью, и (ii) большинству пользователей не нужно было защищать дифференциальную конфиденциальность, поскольку они редко используются. как соседи. В наших экспериментах с пятью различными наборами данных мы сделали два ключевых наблюдения: во-первых, ReuseKNN требует значительно меньших окрестностей, и, следовательно, меньшее количество соседей необходимо защищать с помощью дифференциальной конфиденциальности по сравнению с традиционным UserKNN. Во-вторых, несмотря на небольшие соседства, ReuseKNN превосходит UserKNN и полностью дифференцированный частный подход с точки зрения точности. В целом, ReuseKNN приводит к значительно меньшему риску для конфиденциальности пользователей, чем в случае с UserKNN.