Прежде всего, я думаю, что термин «наука о данных» несколько скрывает вид деятельности от ее идентичности: наука о данных существует уже сотни лет, проходя под видом «статистики». Я думаю, что науку о данных лучше определить как обучение использованию самого мощного широко доступного инструмента, который когда-либо видело человечество, — компьютера — таким образом, чтобы извлекать информацию из наборов данных пропорций, которые могут быть эффективно интерпретированы только компьютером. Итак, почему наука о данных? Ответ по праву так многогранен.

Первый — искренний интерес к изобретениям и открытиям.

Открытие происходит по-новому:

«Ни один человек или команда людей не смогли бы справиться с лавиной информации, производимой многими современными физическими и астрономическими экспериментами. Некоторые из них ежедневно записывают терабайты данных — и поток только увеличивается. Радиотелескоп Square Kilometer Array, запуск которого запланирован на середину 2020-х годов, будет ежегодно генерировать примерно столько же трафика данных, сколько весь Интернет.

«Потоп заставил многих ученых обратиться за помощью к искусственному интеллекту. При минимальном участии человека системы искусственного интеллекта, такие как искусственные нейронные сети — смоделированные компьютером сети нейронов, которые имитируют работу мозга, — могут обрабатывать горы данных, выявляя аномалии и обнаруживая закономерности, которые люди никогда бы не заметили».

– Дэн Фальк, журнал Quanta.

В молодости рассказы об изобретателях и первооткрывателях, таких как Бенджамин Франклин и Томас Эдисон, произвели почти полное впечатление на то, кем я мечтал стать. Для меня радость жизни заключается в изобретениях и открытиях.

Однако характер открытий резко изменился, во многом благодаря способности компьютеров обрабатывать огромные объемы данных. Когда я был студентом бакалавриата и изучал прикладную физику в Вашингтонском университете в Сиэтле, у меня была возможность работать с группой по исследованию материалов, стремящейся решать междисциплинарные проблемы с помощью подхода, основанного на данных. В первые дни мой мозг взрывался каждый раз, когда я входил в лабораторию, потому что я всегда представлял, что научное открытие выглядит как сцена из лаборатории Декстера. Однако реальность была совершенно иной. Не было ни бунзеновских горелок, ни электронных микроскопов; никаких психоделических наборов пробирок или биоопасных чашек Петри (хотя наверняка где-то такие вещи существовали); лишь небольшая группа влиятельных умов и их ноутбуков в соотношении, которое никогда не делало члена команды без компьютеров, но часто оставляло его/ее два или более. Сразу же все мои предвзятые представления об открытиях рухнули, когда я консультировался с различными учеными по поводу их перспектив и проектов. Некоторые занимались молекулярным моделированием, производя матрицы, от размеров которых мог бы упасть в обморок математик последнего поколения; другие разрабатывали новые вычислительные эксперименты, одновременно безумно ссылаясь на учебники уровня PhD и документацию по машинному обучению. Было бы преуменьшением сказать, что я был в восторге.

После небольшой научной ярмарки мой наставник засыпал меня вопросами о моем компьютере и опыте программирования, на которые я не смог сформулировать внятного ответа. Когда он заставил меня впервые открыть свой терминал и написать инопланетные команды там, где левая кнопка курсора даже не работала, меня словно перенесли в древний Египет и попросили интерпретировать иероглифические картины.

Я помню смесь мыслей, которые у меня были, когда я вышел из лаборатории в тот день. В некотором смысле перспектива этого нового научного подхода захватила мое воображение и взволновала мой дух в отношении того масштаба, в котором он может изменить игровое поле и ускорить прогресс науки.

С другой стороны, я был разочарован, во-первых, потому что я очень хотел испытать Лабораторию Декстера, но в значительно большей степени, потому что у меня не было опыта вычислений. Я чувствовал себя увядающим комнатным растением по сравнению с этим невероятно современным и красноречивым новым типом ученых. Почему-то я думал, что никогда не научусь пользоваться компьютером, как эти люди. Отчасти в этом можно обвинить общество в целом и стереотип, который он навязывает разработчикам программного обеспечения и специалистам в области вычислений. Это правда, да, сообщество CS в основном состоит из умных людей — но это не какой-то особый дар. Это результат знаний, полученных в результате потраченного времени, и совершенно независимо от фона. Таким образом, наша проекция сложности на компьютерную науку делает ее сложной (должен отметить, что в CS есть свои сложные темы, но это не отличается от любой другой области).

Крайне важно, чтобы вы, как ученый, знали, как применять эти инструменты, потому что мы вступили в новую эру научных открытий, когда люди сами по себе больше не обладают способностью выявлять закономерности: они оснащены компьютером и необходимыми навыками работы с данными. набор, достижимый в течение года при умеренных усилиях, современный ученый выявляет закономерности и составляет формулы, подобные которым невооруженным глазом невозможно заметить; из которых компьютер предназначен для обнаружения. Было бы разумно сказать, что информатика в значительной степени заменила науку в том смысле, что исследования повсеместно выигрывают от реализации подхода, основанного на вычислениях. Иными словами, каждый ученый скоро будет также специалистом по информатике; а сама информатика является предпосылкой для современных научных исследований. И в более широком смысле, вы, как академик, можете извлечь большую выгоду из реализации CS независимо от вашей области, потому что

Мой главный аргумент здесь заключается в том, что знание того, как пользоваться компьютером, повышает вероятность совершения открытия.

Два — совершенствование себя

«С самого детства у меня было это инстинктивное стремление к расширению и росту. Для меня функция и обязанность качественного человека — это искреннее и честное развитие своего потенциала».

- Брюс Ли

«Отзывы — это завтрак чемпионов».

— Кен Бланшар

Большую часть моего стремления изучать науку о данных можно отнести к моей философии постоянного самосовершенствования. Для меня жизнь приобретает более высокий смысл, когда я чувствую, что совершенствуюсь — и, что, возможно, более важно — знаю, когда моя линия тренда наклоняется вниз.

Записывая данные о себе, вы даете себе возможность лучше понять, как вы работаете. К сожалению, при рождении нам не дается руководство по работе с нашими узкоспециализированными, но повсеместно дифференцированными анатомическими аппаратами (то есть мы должны выяснить, как мы работаем — что нам нравится и не нравится, что мы можем и не может сделать — через положительные и отрицательные петли обратной связи; и что каждый из нас отличается от всех людей до и после того, что когда-либо существовало). Но записывая данные и понимая взаимосвязь между различными аспектами вашей жизни, вы позволяете себе жить лучше. Очевидным примером может служить зависимость между количеством и качеством вашего сна и количеством выпитого кофе. В целом можно ожидать, что чем больше кофе вы пьете, тем хуже вы спите как в отношении качества, так и количества. Но есть и другие переменные, такие как концентрация кофеина в кофе (вы можете спать хуже после кофе из Starbucks по сравнению с кофе, сваренным дома) и насколько усердно вы тренировались в тот день (даже если вы выпили три порции эспрессо в 7 часов: 00:00, вы все равно заснули в 21:00, потому что сожгли его в спортзале). Дело в том, что существует какая-то связь между потреблением кофеина и другим образом жизни; и, зная это соотношение, вы получаете формулу: если я выпью x кофе в y час, мне нужно выполнить z упражнение, чтобы быть спит в произвольное время. Теперь экстраполируйте эту концепцию на нашу очень сложную жизнь в двадцать первом веке и соберите достаточное количество данных: в некотором смысле мы можем составить руководство по эксплуатации. В результате мы лучше познаем себя и, следовательно, имеем больше возможностей для совершенствования. Некоторые выводы, такие как потребление кофеина и количество/качество сна, являются второстепенными и ожидаемыми, но вы, возможно, никогда не предвидели связи между другими переменными образа жизни.

Мой главный аргумент заключается в том, что данные помогают нам определить, где мы совершенствуемся, а где стоим на месте; какие переменные связаны, а какие нет; и в целом может сообщить нам, как мы можем стать лучшей версией самих себя. Данные помогают нам лучше планировать будущее и лучше реагировать на настоящее. Одно дело чувствовать, что вы совершенствуетесь; другое дело, когда записи отражают эту истину. Идти по жизни, не зная данных, было бы похоже на бегуна, который никогда не пользуется секундомером. Если вы делаете что-то для удовольствия, я понимаю, что вы не отслеживаете прогресс, но для некоторых из нас прогресс — это удовольствие. И не всегда можно почувствовать свой путь к совершенствованию. Вам нужны цифры.

Три — сохранение энергии и прагматизм

'Мистер. Уинстон Черчилль, сэр, чему вы приписываете свой жизненный успех?» И он без колебаний ответил: «Экономия усилий. Никогда не вставай, если можно сесть, и никогда не садись, если можно лечь».

— Пол Джонсон

Конечно, у меня есть несколько прагматических причин стать специалистом по данным. Это также играет на моих природных сильных сторонах и соответствует моим целям когнитивного развития. Достойная зарплата, гарантии занятости и перспектива поездок на новые места работы, потому что специалисты по данным востребованы везде. Будучи франкофилом и говорящим по-французски, я всегда мечтал жить во Франции, путешествовать по улицам Парижа, и, к счастью для меня, эта возможность может появиться раньше, чем позже, в результате возросшего спроса на специалистов по данным во Франции. Кроме того, также важно осознавать пределы и ограничения, с которыми мы сталкиваемся как биологический вид. Каждый из нас будет жить генетически и обусловленный окружающей средой вероятностный диапазон времени: например, относительно вероятно, что я проживу от 70 до 80 лет, исходя из генетических факторов, но все еще существует небольшая вероятность того, что я умру сегодня. . И между датами начала и конца моей жизни в моем распоряжении есть определенное количество энергии, подобно тому, как у молота есть определенное количество ударов, которое он может нанести, прежде чем сломается. Принимая все это во внимание, крайне важно, чтобы я максимально экономил свою энергию от вещей, которые я не хочу делать, чтобы направить ее на то, что я хочу делать. Таким образом, стремясь дать себе максимальное количество свободной энергии, становление исследователем данных ограждает меня от ручного труда, где ваш инновационный потенциал истощается к концу восьмичасовой смены, и делает меня маловероятным, чтобы получить травму на работе. Более того, я считаю, что стать специалистом по данным — это способ максимизировать зарплату, безопасность работы, мобильность работы, продолжительность карьеры и свести к минимуму риск травмы или замены, тем самым максимизируя мои шансы сделать какое-то изобретение или открытие до истечения срока годности.

И последнее, но не менее важное: наука о данных — это быстро развивающаяся область, и изобретения делаются теми, кто находится на переднем крае инноваций. Изобретение строится на вершине изобретения; чтобы добавить в стек, необходимо подняться на вершину стека; и также необходимо выбрать стек, который растет и, по оценкам, станет относительно высоким стеком. С этой точки зрения можно внедрять инновации в дополнение к существующим полям. Более того, специалисты по обработке и анализу данных ставят себя в центральное стратегическое положение в организациях и создают основанные на данных идеи для направления инноваций как в командах, так и в продуктах. Из-за этого я предвижу, что наука о данных станет необходимым условием для того, чтобы стать менеджером по продукту в команде высокого уровня, должность, которую я хотел бы занять однажды.

Я также просто люблю и преуспеваю в математике и статистике, и следует отметить, что мои природные склонности соответствуют арсеналу успешного специалиста по данным. Моя главная причина стать специалистом по данным: это действительно весело и круто.