Оценка недвижимости на основе данных с помощью машинного обучения

Цитата Клайва Хамби (2006 г.) Данные — это новая нефть стала крылатой фразой и цитируется в различных средствах массовой информации; от технических блогов до статей в авторитетных журналах вроде Forbes и The Economist. Проще говоря, слоган утверждает, что данные — самый ценный ресурс в мире прямо сейчас, даже более ценный, чем нефть.

Я твердо верю, что этот аргумент применим ко всем отраслям, поскольку данные позволяют компаниям принимать более точные бизнес-решения. Однако, как и сырая нефть, необработанные данные сами по себе бесполезны. Вам нужно будет уточнить и обработать, чтобы использовать его. В Tiko мы используем данные для оценки стоимости недвижимости с помощью машинного обучения.

Я хочу приветствовать вас, поделившись некоторыми интересными концепциями:

Расстояние до Starbucks имеет значение

Оказывается, чем ближе недвижимость к Starbucks, тем выше ее рыночная стоимость. Иногда этот параметр влияет на цену даже больше, чем близость общественного транспорта. Конечно, это не потому, что люди готовы платить больше, чтобы открыть Starbucks ближе к дому, а потому, что Starbucks выбирает отличные места.

Современные алгоритмы машинного обучения у нас под рукой

Благодаря сообществу открытого исходного кода самые сложные алгоритмы, разработанные экспертами, всегда у нас под рукой.
Catboost, LightGBM и XGBoost — широко используемые алгоритмы машинного обучения с открытым исходным кодом, используемые в таких компаниях, как CERN, Cloudflare, Careem Taxi, а также в стартапах, включая наш.

Самое важное значение имеет не количество данных...

Есть старая компьютерная пословица — Мусор на входе, мусор на выходе: неверный или некачественный ввод всегда приводит к ошибочному выводу (часто сокращенно GIGO). То же самое относится к неверным данным, которые можно определить как неточный набор информации, такой как отсутствующие данные, неверная информация или дублирующиеся данные…
Мы используем данные для лучшего принятия решений. Хорошие данные приведут к хорошим решениям, а плохие данные приведут к плохим.

Какова стоимость моего дома?

Каждое путешествие по продаже дома начинается с этого вопроса. В Tiko мы находим ответ с помощью TikoAnalytics, проприетарного программного обеспечения искусственного интеллекта, разработанного технологической командой Tiko. Цель состоит в том, чтобы определить рыночную стоимость недвижимости, чтобы иметь возможность предложить лучшую сделку.

Использование технологии машинного обучения было обязательным для анализа огромного количества данных и расчета истинной рыночной стоимости без упущения каких-либо аспектов. Машинное обучение (ML) основано на идее, что системы могут учиться на данных и делать прогнозы на основе полученных знаний. В нашем случае ML помогает нам предсказать стоимость имущества, используя доступные оценки.

Ниже вы можете найти основные этапы нашего жизненного цикла машинного обучения:

1. Сбор данных

Данные — это источник, это элементарный ингредиент. Многие автоматизированные модели оценки, используемые в сфере недвижимости, работают на приобретенных наборах данных. В Tiko мы сами собираем данные:

При выходе на новый рынок (это может быть новый город или страна) мы начинаем собирать данные из общедоступных территориальных ресурсов, включая объявления, географическую информацию, достопримечательности, нотариальные данные и т. д.
Сбор региональных данных позволяет технической группе обучать модели с использованием информации о местном рынке, что позволяет получать более точные оценки.
Сбор данных — это непрерывный процесс в Tiko. Рынок — это живой организм, он меняется. Единственный способ поддерживать низкий уровень ошибок — снабжать наши модели самыми последними данными.

2. Анализ и очистка данных

Как упоминалось ранее, машинное обучение основано на идее, что системы могут учиться на данных. Если данные, введенные в систему, некачественные, то модель, построенная на этих данных, не даст точных результатов.

Некоторые примеры неверных данных для случаев оценки недвижимости:

Простые опечатки, например, написать 12 тыс. вместо 120 тыс. или добавить размер 10 м2 для квартиры площадью 100 м2.
Дублирующаяся информация. Информация об одном и том же свойстве может быть собрана из разных ресурсов и добавлена в базу данных, как если бы данные принадлежали разным свойствам.
Отсутствует информация, может отсутствовать такая информация, как этаж, возраст здания и т. д.
Нерепрезентативность, если все ваши данные относятся к обычным квартирам, модель не будет работать нормально для частных домов, поскольку они не представлены в данных.

На этом этапе неверные данные удаляются, улучшаются или исправляются и готовятся к созданию модели машинного обучения.

3. Обучение и тестирование моделей данных

Давайте начнем с простых определений алгоритма и модели машинного обучения, поскольку эти термины иногда используются взаимозаменяемо, но на самом деле это не одно и то же.

Алгоритм машинного обучения – это набор инструкций, которые обрабатывают данные для создания модели. Он распознает закономерности в данных — это то, что имеется в виду, когда говорят «обучение» на основе данных — и использует их для моделирования нижних корреляций в предоставленном наборе данных.

Модель машинного обучения – это файл, созданный в конце процесса машинного обучения. Это в основном программа. В нашем случае мы отправляем в программу свойства квартиры (размер, расположение, количество спален и т. д.), и программа рассчитывает рыночную стоимость этой квартиры.

Большая часть данных используется для обучения моделей и около 10% зарезервировано для тестирования модели. Тестовые данные включают стоимость квартир вместе с характеристиками дома. Только характеристики дома представлены модели для оценки цены. Затем прейскурантная цена в наборе данных сравнивается с оценочной ценой, чтобы понять точность модели.

В настоящее время TikoAnalytics использует 130 моделей данных (число увеличивается по мере выхода операций на новые рынки) со средним коэффициентом ошибок 5 %.

…

Последнее примечание

Нефть была топливом (в прямом и переносном смысле) индустриальной эпохи. То же самое можно сказать и о данных и цифровом веке. По моему личному мнению, технологические достижения служат только одному; чтобы создать время для людей. Некоторые могут не согласиться, приводя многочисленные аргументы, начиная с зависимости от социальных сетей и заканчивая отвлечением, вызванным неограниченным доступом к развлечениям… Но я бы занял позицию и сказал, что это выбор. Это зависит исключительно от того, как вы его используете. .

Будучи свидетелем нескольких процессов покупки/продажи жилья, я твердо верю, что оцифровка индустрии недвижимости сэкономит мне время на пару длинных отпусков, чтение L.O.T.R. и подготовку к следующему марафону.

Спасибо за прочтение,

езги