Когда SQL — не лучший ответ: выявление проблем с графиками и когда графики могут помочь

Специалисты по данным работают со столбцами и строками. Это лежит в основе нашего обучения, и мы очень хороши в этом! От таблиц SQL до фреймов данных Pandas и всего, что между ними, нам нравятся наши столбцовые данные. Нам лучше всего удается предположить, что каждая из наших строк представляет собой независимый тип данных, никак не связанный ни с одной из других строк. Мы живем в этой парадигме настолько полно, что подавляющее большинство наших моделей машинного обучения предполагают, что наши строки независимы друг от друга. И почему мы не должны так думать? В конце концов, наши данные используются в результате ряда измерений, будь то профили пользователей на наших платформах, транзакции в платежных системах или клики по экрану. Все эти вещи являются независимыми измерениями друг друга, верно?

Ну, за исключением случаев, когда их нет. Как и большинство вещей, это обобщение, и всегда есть исключения из всего. На самом деле, есть много исключений из вышеперечисленного. Например, пользователи платформы социальной сети могут быть связаны с другими пользователями через такие отношения, как дружба. Если бы мы хотели предсказать отток одного пользователя, это коррелировало бы с тем, уходит ли один из его друзей. Покупка одного товара на веб-сайте, например шампуня, может естественным образом привести к покупке другого товара, например, кондиционера. Щелчки экрана могут происходить только тогда, когда одна веб-страница связана с другой. Отношения между нашими точками данных имеют значение.

И поэтому нам, специалистам по данным, иногда необходимо отказаться от нашей давней потребности в том, чтобы каждая точка данных была независимой друг от друга. Здесь на помощь приходят графы. Но откуда мы знаем, что у нас есть проблема, которая хорошо поддается графам?

Мы привыкли работать с реляционными базами данных, такими как SQL. Однако SQL может сделать определенные задачи, основанные на связях, сложными и неэффективными. Например, простая операция JOIN может быть O(N * M), где N и M — размер соединяемых таблиц. А затем подумайте, что происходит с «большим O», когда в одном запросе есть несколько JOIN!

Иногда можно легко увидеть, что у вас есть проблема с графиком, просто зная, что отношения между вашими точками данных имеют значение. Однако не всегда это так очевидно. Множественные JOIN на самом деле являются одним из самых больших намеков на то, что у вас есть проблема с графом. Если вы знаете, что у вас есть проблема с графом, вам доступно множество инструментов, использующих структуру данных графа или базу данных графа, которые могут открыть множество новых возможностей для вычислений, которые намного превосходят возможности SQL! К ним относятся поиск наиболее важных точек данных (узлов) с помощью графика, кластеры в данных, сходство между узлами и даже машинное обучение с поддержкой графов.

В своем выступлении на ODSC East 2022 я покажу вам, как выявлять графические проблемы и что делать с ними, как только они возникнут. Мы рассмотрим некоторые распространенные SQL-запросы, изучив, как большой O зависит от запроса. Затем мы перейдем к рассмотрению того, как решать задачи с графами в SQL. Мы сравним каждый из наших SQL-запросов с эквивалентным запросом в Cypher, распространенном языке запросов графов. Наконец, мы коснемся некоторых из тех захватывающих вычислений, которые можно выполнить только на графике.

Я надеюсь увидеть вас на моем выступлении ODSC East Когда SQL — не лучший ответ: выявление проблем с графами и когда графики могут помочь!

Об авторе / спикере ODSC East 2022:

Доктор Клэр Салливан в настоящее время является сторонником графических данных в Neo4j, работая над расширением сообщества специалистов по данным и инженеров по машинному обучению, использующих графы для решения сложных задач. Она получила докторскую степень в области ядерной инженерии в Мичиганском университете в 2002 году и работала в различных учреждениях, включая национальные лаборатории, федеральное правительство, в качестве профессора в Университете Иллинойса. Она является автором 4 глав в книгах, более 20 рецензируемых статей и более 30 статей на конференциях.

LinkedIn: https://www.linkedin.com/in/dr-clair-sullivan-09914342/

Твиттер: @CJLovesData1

Изображение на обложке от Savionasc, CC BY-SA 4.0, через Wikimedia Commons

Исходное сообщение здесь.

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai+ Training. Подпишитесь также на нашу быстрорастущую публикацию на Medium, ODSC Journal, и узнайте, как стать писателем.

Когда SQL — не лучший ответ: выявление проблем с графиками и когда графики могут помочь

Об авторе / спикере ODSC East 2022:

Вопросы по теме