Наука о данных, доверительные отношения и научные исследования

Автор:
Доктор Дэвид Херман, нейробиолог
Dr. Гален Баквалтер , психолог.

Новая область науки о данных быстро позволяет нам связывать огромное количество, казалось бы, не связанных между собой идей и объединять эти новые знания, чтобы потенциально предсказать результаты практически в любой ситуации.

Как ученые данных делают это? В значительной степени мы делаем то, что всегда делали ученые: мы ищем повторяющиеся ответы на вопросы, которые нас окружают, находя значимые закономерности в данных. В контексте психологии мы ищем шаблоны, которые позволяют нам понимать и предсказывать человеческое поведение, поведение, которое является выражением убеждений, привычек и желаний.

Представьте мозаичную мозаику, в которой каждая крошечная плитка представляет собой единицу данных. С близкого расстояния мы ограничены в информации, которую можем собрать, сосредоточившись на атрибутах отдельных плиток. Но только когда вы усвоите и вычислите все данные, вы сможете увидеть глубоко проницательные закономерности.

Не так давно, и это все еще верно для некоторых областей, сбор данных занимал большую часть времени ученого. Например: раньше психологам приходилось проводить десятки оценок в течение многих недель или месяцев, а сегодня мы можем измерить многие черты / особенности миллионов людей за несколько часов. Эта тенденция проявилась во многих областях и позволила ученым сосредоточиться на огромном потоке данных, который существует перед нами, и, честно говоря, потребовал от них.

Процесс поиска соответствующих закономерностей в этих больших наборах данных значительно продвинулся за счет адаптации более мощных вычислительных инфраструктур и алгоритмов машинного обучения.

Как специалисты по обработке данных, мы используем наши знания алгоритмов, вычислительных инструментов и широкий спектр предметных знаний, от обработки естественного языка - от цифровой интерпретации человеческого языка до поведенческой психологии и нейроэкономики. Благодаря сочетанию научных методов и машинного обучения мы разрабатываем постоянно развивающийся и все более мощный набор идей и методологий для исследования больших наборов данных в облаках больших данных.

По сути, наука о данных - это поиск закономерностей и информации, скрытой в данных. Представьте мозаичную мозаику, в которой каждая крошечная плитка представляет собой единицу данных. С близкого расстояния мы ограничены в информации, которую можем собрать, сосредоточившись на атрибутах отдельных плиток. Но только когда вы усвоите и вычислите все данные, вы сможете увидеть глубоко проницательные закономерности. Когда мы отступаем, воспринимаем все это и видим коллекцию изображений и историй в полном масштабе, тогда мы извлекаем уроки из больших данных.

Те из вас, кто только что вспомнил историю шести слепых ученых и слона, мы принимаем кандидатов. Но только после того, как кто-то, кто понимает последовательный процесс науки о данных, не исследует структуру данных, которая удерживает эту мозаику вместе, используя алгоритмы и свои знания математики, науки и статистики для руководства этим исследованием, можно будет найти закономерности. Без шаблонов данные бесполезны. Как только в данных обнаруживается закономерность, она становится очень значимой, и мы можем получить важную информацию, потенциально применимую к широким слоям людей.

Наше цифровое поведение, в том числе лайки в социальных сетях, клики для покупки продуктов и измерения физической и умственной активности (Fitbits, акселерометры, анкеты, МРТ и ЭЭГ) - все это позволяет взглянуть на суть человеческой индивидуальности и позволяет специалистам по данным увидеть человечество в очень большом масштабе.

Работая с информацией, чтобы определить, как рассказать историю в таком огромном масштабе, наука о данных использует самую мощную машину: человеческий мозг, для разработки алгоритмов, которые позволяют компьютерам брать на себя повествование и направлять информацию в правильном направлении.

И, как и в случае со всем остальным в жизни, то, что вы получаете от этого, является результатом того, что вы вкладываете в это. Хотя алгоритм создает сопоставление, его значение является результатом того, что он принимает во внимание то, что нас действительно волнует.

Данные не могут рассказать историю без цифрового мозга, который систематизирует данные, и человеческого мозга, который контекстуализирует их в человеческом опыте. Большая часть нашей цифровой жизни на определенном уровне зависит от решений людей о том, какие закономерности имеют значение, и какие алгоритмы и опыт необходимы и предназначены. Именно здесь цифровое взаимодействие приобретает контекстуальный IQ, который преобразует данные в информацию, за которым следует опыт, который действительно связан с людьми.

Думайте об алгоритме как о способе сделать сложное усваиваемым, поскольку он создает фильтры / структуру и статистические обобщения, которые позволяют сосредоточить внимание на конкретных моментах. И, как и в случае со всем остальным в жизни, то, что вы получаете от этого, является результатом того, что вы вкладываете в это. Хотя алгоритм создает сопоставление, его значение является результатом того, что он принимает во внимание то, что нас действительно волнует.

Итак, что нас действительно волнует? Оказывается, почти все, что касается человеческого поведения. В конце концов, это наука, и повторяющийся эмпирический процесс исследования может применяться ко всему, что мы, люди, делаем.

По мере того, как мы расширяем применение прикладной науки о данных во всех областях, имеет значение, кто или что стоит за алгоритмом. Данные - это одно, но рассказывать историю, отражающую ценность данных таким образом, чтобы завоевать доверие людей, - это совсем другое.

Самое важное решение в жизни взрослого человека - кого выбрать в качестве партнера - было улучшено благодаря прикладной науке о данных и разуму человеческого разума, который направил свой эмоциональный интеллект в правильное русло, на любовь.

Возьмем, к примеру, «проблему стабильного брака».

Допустим, у вас есть большая группа людей X, каждый из которых хочет кого-то из группы Y, и наоборот. Перед вами, непревзойденный амур, стоит задача: можно ли оптимально распределить пары, в которых все они «стабильны»? (Говоря математически, «стабильный» здесь означает, что в обоих наборах нет людей, которые предпочли бы быть с кем-то, кроме своего текущего матча.)

Как оказалось, есть хитрый алгоритм решения этой проблемы. Тем не мение! Создание алгоритма - это лишь половина того, что должен сделать специалист по данным. Им также необходимо знать, какая информация имеет значение и что делает их подходящими. Алгоритм позволяет нам проводить сопоставление, но именно особенности, черты, оценки и реальные знания делают это сопоставление эффективным.

Вы говорите, что это слишком, Джордж Оруэлл, антиутопический кошмар для вас?

Давайте посмотрим, например, на eHarmony, который основан на алгоритме, частично разработанном доктором Галеном Баквалтером, соавтором этой статьи. Все мы знаем пары, которые познакомились в Интернете - людей, которые иначе никогда бы не нашли друг друга. Самое важное решение в жизни взрослого человека - кого выбрать в качестве партнера - было улучшено благодаря прикладной науке о данных и разуму человеческого разума, который направил свой эмоциональный интеллект в правильное русло, на любовь.

Можно ли найти более глубокое применение в совместной работе мозга и алгоритмов?

Данные - длинный список очень конкретных атрибутов, выбранных человеком как привлекательные - приводят к совпадению с кем-то, кто выбрал многие из тех же атрибутов. Затем люди назначают свидание и решают, станет ли их связь чем-то большим, чем неудобный ужин, хотя и с незнакомцем, с которым у вас много общих черт.

Кто-то может назвать это неромантичным и, возможно, лишенным интуитивной прозорливости, которую мы склонны приписывать романтике, но научный процесс исключительно эффективен, о чем свидетельствуют тысячи людей, которые ежедневно переживают этот опыт.

Наука о данных в действии - это алгоритм, который направляет пользователя к выбору, который он, вероятно, никогда бы не нашел без него. Учитывая кажущиеся бесконечными возможности связанного мира, в котором проживает более 7 миллиардов человек, сопоставление нас с тем, что мы хотим и в чем нуждаемся, становится с каждым днем ​​все более ценным, поскольку собирается все больше и больше данных.