Цитата Клайва Хамби (2006 г.) Данные — это новая нефть стала крылатой фразой и цитируется в различных средствах массовой информации; от технических блогов до статей в авторитетных журналах вроде Forbes и The Economist. Проще говоря, слоган утверждает, что данные — самый ценный ресурс в мире прямо сейчас, даже более ценный, чем нефть.
Я твердо верю, что этот аргумент применим ко всем отраслям, поскольку данные позволяют компаниям принимать более точные бизнес-решения. Однако, как и сырая нефть, необработанные данные сами по себе бесполезны. Вам нужно будет уточнить и обработать, чтобы использовать его. В Tiko мы используем данные для оценки стоимости недвижимости с помощью машинного обучения.
Я хочу приветствовать вас, поделившись некоторыми интересными концепциями:
Расстояние до Starbucks имеет значение
- Оказывается, чем ближе недвижимость к Starbucks, тем выше ее рыночная стоимость. Иногда этот параметр влияет на цену даже больше, чем близость общественного транспорта. Конечно, это не потому, что люди готовы платить больше, чтобы открыть Starbucks ближе к дому, а потому, что Starbucks выбирает отличные места.
Современные алгоритмы машинного обучения у нас под рукой
- Благодаря сообществу открытого исходного кода самые сложные алгоритмы, разработанные экспертами, всегда у нас под рукой.
- Catboost, LightGBM и XGBoost — широко используемые алгоритмы машинного обучения с открытым исходным кодом, используемые в таких компаниях, как CERN, Cloudflare, Careem Taxi, а также в стартапах, включая наш.
Самое важное значение имеет не количество данных...
- Есть старая компьютерная пословица — Мусор на входе, мусор на выходе: неверный или некачественный ввод всегда приводит к ошибочному выводу (часто сокращенно GIGO). То же самое относится к неверным данным, которые можно определить как неточный набор информации, такой как отсутствующие данные, неверная информация или дублирующиеся данные…
- Мы используем данные для лучшего принятия решений. Хорошие данные приведут к хорошим решениям, а плохие данные приведут к плохим.
Какова стоимость моего дома?
Каждое путешествие по продаже дома начинается с этого вопроса. В Tiko мы находим ответ с помощью TikoAnalytics, проприетарного программного обеспечения искусственного интеллекта, разработанного технологической командой Tiko. Цель состоит в том, чтобы определить рыночную стоимость недвижимости, чтобы иметь возможность предложить лучшую сделку.
Использование технологии машинного обучения было обязательным для анализа огромного количества данных и расчета истинной рыночной стоимости без упущения каких-либо аспектов. Машинное обучение (ML) основано на идее, что системы могут учиться на данных и делать прогнозы на основе полученных знаний. В нашем случае ML помогает нам предсказать стоимость имущества, используя доступные оценки.
Ниже вы можете найти основные этапы нашего жизненного цикла машинного обучения:
1. Сбор данных
Данные — это источник, это элементарный ингредиент. Многие автоматизированные модели оценки, используемые в сфере недвижимости, работают на приобретенных наборах данных. В Tiko мы сами собираем данные:
- При выходе на новый рынок (это может быть новый город или страна) мы начинаем собирать данные из общедоступных территориальных ресурсов, включая объявления, географическую информацию, достопримечательности, нотариальные данные и т. д.
- Сбор региональных данных позволяет технической группе обучать модели с использованием информации о местном рынке, что позволяет получать более точные оценки.
- Сбор данных — это непрерывный процесс в Tiko. Рынок — это живой организм, он меняется. Единственный способ поддерживать низкий уровень ошибок — снабжать наши модели самыми последними данными.
2. Анализ и очистка данных
Как упоминалось ранее, машинное обучение основано на идее, что системы могут учиться на данных. Если данные, введенные в систему, некачественные, то модель, построенная на этих данных, не даст точных результатов.
Некоторые примеры неверных данных для случаев оценки недвижимости:
- Простые опечатки, например, написать 12 тыс. вместо 120 тыс. или добавить размер 10 м2 для квартиры площадью 100 м2.
- Дублирующаяся информация. Информация об одном и том же свойстве может быть собрана из разных ресурсов и добавлена в базу данных, как если бы данные принадлежали разным свойствам.
- Отсутствует информация, может отсутствовать такая информация, как этаж, возраст здания и т. д.
- Нерепрезентативность, если все ваши данные относятся к обычным квартирам, модель не будет работать нормально для частных домов, поскольку они не представлены в данных.
На этом этапе неверные данные удаляются, улучшаются или исправляются и готовятся к созданию модели машинного обучения.
3. Обучение и тестирование моделей данных
Давайте начнем с простых определений алгоритма и модели машинного обучения, поскольку эти термины иногда используются взаимозаменяемо, но на самом деле это не одно и то же.
Алгоритм машинного обучения – это набор инструкций, которые обрабатывают данные для создания модели. Он распознает закономерности в данных — это то, что имеется в виду, когда говорят «обучение» на основе данных — и использует их для моделирования нижних корреляций в предоставленном наборе данных.
Модель машинного обучения – это файл, созданный в конце процесса машинного обучения. Это в основном программа. В нашем случае мы отправляем в программу свойства квартиры (размер, расположение, количество спален и т. д.), и программа рассчитывает рыночную стоимость этой квартиры.
Большая часть данных используется для обучения моделей и около 10% зарезервировано для тестирования модели. Тестовые данные включают стоимость квартир вместе с характеристиками дома. Только характеристики дома представлены модели для оценки цены. Затем прейскурантная цена в наборе данных сравнивается с оценочной ценой, чтобы понять точность модели.
В настоящее время TikoAnalytics использует 130 моделей данных (число увеличивается по мере выхода операций на новые рынки) со средним коэффициентом ошибок 5 %.
…
Последнее примечание
Нефть была топливом (в прямом и переносном смысле) индустриальной эпохи. То же самое можно сказать и о данных и цифровом веке. По моему личному мнению, технологические достижения служат только одному; чтобы создать время для людей. Некоторые могут не согласиться, приводя многочисленные аргументы, начиная с зависимости от социальных сетей и заканчивая отвлечением, вызванным неограниченным доступом к развлечениям… Но я бы занял позицию и сказал, что это выбор. Это зависит исключительно от того, как вы его используете. .
Будучи свидетелем нескольких процессов покупки/продажи жилья, я твердо верю, что оцифровка индустрии недвижимости сэкономит мне время на пару длинных отпусков, чтение L.O.T.R. и подготовку к следующему марафону.
Спасибо за прочтение,
езги