Мы находимся в эпицентре бума искусственного интеллекта. Эксперты по машинному обучению получают экстраординарные зарплаты, инвесторы с радостью открывают свои сердца и чековые книжки при встрече со стартапами в области искусственного интеллекта. И это правильно: это одна из тех трансформационных технологий, которые происходят раз в поколение. Технологии здесь, чтобы остаться, и они изменят нашу жизнь.

Это не означает, что сделать успешный стартап в области искусственного интеллекта легко. Я думаю, перед каждым, кто пытается построить свой бизнес на основе искусственного интеллекта, ждут несколько важных ошибок.

Ценность ваших навыков ИИ снижается

В 2015 году я все еще работал в Google и начал играть с DistBelief (который позже переименовали в TensorFlow). Это отстой. Писать было до боли неудобно, основные абстракции не совсем соответствовали вашим ожиданиям. Идея заставить его работать вне системы сборки Google была несбыточной мечтой.

В конце 2016 года я работал над доказательством концепции обнаружения рака груди на гистопатологических изображениях. Я хотел использовать трансферное обучение: взять Inception, лучшую на то время архитектуру классификации изображений Google, и переобучить ее на моих данных о раке. Я бы использовал веса из предварительно обученного Inception, предоставленного Google, просто меняя верхние слои в соответствии с тем, что я делал. После долгого времени проб и ошибок в TensorFlow я наконец понял, как манипулировать разными слоями, и в основном он заработал. Потребовалось много настойчивости и чтения исходников TensorFlow. По крайней мере, мне не пришлось особо беспокоиться о зависимостях, поскольку люди TensorFlow милостиво подготовили образ Docker.

В начале 2018 года задача сверху не подходила для первого проекта стажера из-за отсутствия сложности. Благодаря Keras (фреймворк поверх TensorFlow) вы могли сделать это всего несколькими строками кода Python, и это не требовало глубокого понимания того, что вы делаете. Что все еще было немного больно, так это настройка гиперпараметров. Если у вас есть модель глубокого обучения, вы можете управлять несколькими ручками, такими как количество и размер слоев и т. Д. Как добраться до оптимальной конфигурации нетривиально, и некоторые интуитивно понятные алгоритмы (например, поиск по сетке) не работают хорошо. В итоге вы провели множество экспериментов, и это было больше похоже на искусство, чем на науку.

Пока я пишу эти слова (начало 2019 года), Google и Amazon предлагают услуги по автоматической настройке модели (Cloud AutoML, SageMaker), Microsoft планирует это сделать. Я предсказываю, что ручная настройка пойдет по пути додо и скатертью дороги.

Я надеюсь, что вы видите здесь закономерность. То, что было трудным, становится легким, вы можете достичь большего, понимая меньше. Великие инженерные достижения прошлого начинают казаться неубедительными, и мы не должны ожидать, что наши нынешние достижения в будущем улучшатся. Это хорошо и свидетельствует о поразительном прогрессе. Этим прогрессом мы обязаны таким компаниям, как Google, которые вкладывают значительные средства в инструменты, а затем раздают их бесплатно. Причина, по которой они это делают, двоякая.

Во-первых, это попытка коммодитизировать дополнение к их реальному продукту - облачной инфраструктуре. В экономике два товара дополняют друг друга, если вы склонны покупать их вместе. Некоторые примеры: автомобили и бензин, молоко и хлопья, бекон и яйца. Если цена одного из дополнений снизится, спрос на другой вырастет. Дополнением к облаку является программное обеспечение, которое запускается поверх него, и материал AI также обладает тем приятным свойством, что он требует много вычислительных ресурсов. Таким образом, имеет смысл сделать его разработку как можно более дешевой.

Вторая причина, по которой Google, в частности, так увлечен искусственным интеллектом, заключается в том, что у них есть явное сравнительное преимущество по сравнению с Amazon и Microsoft. Они начали раньше, и в конце концов именно они популяризировали концепцию глубокого обучения, поэтому им удалось выхватить много талантов. У них больше опыта в разработке продуктов искусственного интеллекта, и это дает им преимущество, когда дело доходит до разработки необходимых им инструментов и услуг.

Каким бы увлекательным ни был прогресс, это плохая новость как для компаний, так и для частных лиц, которые вложили значительные средства в развитие искусственного интеллекта. Сегодня они дают вам солидное конкурентное преимущество, поскольку для обучения компетентного инженера машинного обучения требуется много времени, потраченного на чтение статей, и солидный математический фон для начала. Однако по мере того, как инструменты становятся лучше, этого больше не будет. Это будет больше о чтении учебных пособий, чем о научных статьях. Если вы не осознаете свое преимущество в ближайшее время, группа стажеров с библиотекой может съесть ваш обед. Особенно, если у стажеров более точные данные, что подводит нас к следующему пункту ...

Данные важнее причудливых архитектур искусственного интеллекта

Допустим, у вас есть два основателя стартапа в области искусственного интеллекта, Алиса и Боб. Их компании собрали примерно одинаковую сумму денег и ведут ожесточенную конкуренцию за один и тот же рынок. Алиса инвестирует в лучших инженеров, докторов наук с хорошей репутацией в исследованиях искусственного интеллекта. Боб нанимает посредственных, но компетентных инженеров и вкладывает свои («Боб» - сокращение от Роберты!) Деньги в обеспечение безопасности данных. На какую компанию вы бы сделали ставку?

Мои деньги будут прямо на Бобе. Почему? По своей сути машинное обучение работает путем извлечения информации из набора данных и передачи ее весам модели. Лучшая модель более эффективна в этом процессе (с точки зрения времени и / или общего качества), но при условии некоторой базовой адекватности (т. Е. Модель действительно чему-то учится) лучшие данные превзойдут лучшую архитектуру .

Чтобы проиллюстрировать этот момент, давайте проведем быстрый и грязный тест. Я создал две простые сверточные сети: «лучшую» и «худшую». Последний плотный слой лучшей модели имел 128 нейронов, в то время как худший должен был компенсировать только 64. Я обучил их на подмножествах набора данных MNIST увеличивающегося размера и построил график точности моделей на тестовом наборе в зависимости от числа образцов, на которых они обучались.

Положительный эффект от размера обучающего набора данных очевиден (по крайней мере, до тех пор, пока модели не начнут переобучаться и не начнут выходить на плато точности). Моя «лучшая» модель, синяя линия, явно превосходит «худшую» модель, зеленую линию. Однако я хочу отметить, что точность «худшей» модели, обученной на 40 тысячах выборок, лучше, чем точность «лучшей» модели на 30 тысячах выборок!

В моем игрушечном примере мы имеем дело с относительно простой проблемой, и у нас есть исчерпывающий набор данных. В реальной жизни у нас обычно нет такой роскоши. Во многих случаях вы никогда не избежите той части графика, в которой увеличение набора данных имеет такой драматический эффект.

Более того, инженеры Алисы на самом деле соревнуются не только с людьми Боба. Из-за открытой культуры сообщества ИИ и его упора на обмен знаниями они также конкурируют с исследователями из Google, Facebook, Microsoft и тысяч университетов по всему миру. Взять наиболее эффективную архитектуру, описанную в настоящее время в литературе, и переобучить ее на собственных данных - это проверенная в бою стратегия, если вашей целью является решение проблемы (в отличие от внесения оригинального вклада в науку). Если сейчас нет ничего действительно хорошего, часто приходится подождать четверть или два, пока кто-нибудь не предложит решение. Особенно то, что вы можете делать такие вещи, как устроить соревнование Kaggle, чтобы побудить исследователей изучить вашу конкретную проблему.

Хорошая инженерия всегда важна, но если вы занимаетесь ИИ, данные - это то, что создает конкурентное преимущество. Однако вопрос на миллиард долларов заключается в том, сумеете ли вы сохранить свое преимущество.

В искусственном интеллекте сложно поддерживать конкурентное преимущество

С ее превосходным набором данных Боб успешно конкурирует с Алисой, и у нее все отлично. Она запускает свой продукт и уверенно завоевывает долю рынка. Она даже может начать нанимать лучших инженеров, поскольку ходят слухи, что ее компания - это то место, где ей стоит работать.

Чаку нужно наверстать упущенное, но у него намного денег больше, чем у Боба. Это важно, когда дело доходит до построения набора данных. Очень сложно ускорить инженерный проект, вкладывая в него деньги. Фактически, назначение слишком большого количества новых людей может помешать развитию. Однако создание набора данных - это проблема другого рода. Обычно это требует большого количества ручного человеческого труда - и вы можете легко масштабировать его, наняв больше людей. Или может случиться так, что у кого-то есть данные - тогда все, что вам нужно сделать, это заплатить за лицензию. В любом случае - деньги заставляют идти намного быстрее.

Почему Чак смог собрать больше денег, чем Боб?

Когда основатель поднимает раунд, он пытается сбалансировать две цели, потенциально противоречащие друг другу. Им нужно собрать достаточно денег, чтобы выиграть. Но они не могут собрать слишком много денег, потому что это приведет к чрезмерному разбавлению. Привлечение внешнего инвестора означает продажу части компании. Команда основателей должна поддерживать достаточно высокую долю в стартапе, чтобы не потерять мотивацию (управлять стартапом - тяжелая работа!).

С другой стороны, инвесторы хотят вкладывать средства в идеи, у которых есть огромный потенциал роста, но они должны контролировать риск. По мере увеличения предполагаемого риска они будут требовать от компании большей доли за каждый доллар, который они платят.

Когда Боб собирал деньги, это было большим шагом в сторону уверенности в том, что ИИ действительно может помочь с ее продуктом. Независимо от ее качеств основателя или того, насколько хороша была ее команда, не исключалось, что проблема, которую она решила, была просто неразрешимой. Ситуация Чака совсем другая. Он знает, что проблема разрешима: продукт Боба - живое тому доказательство!

Один из возможных ответов Боба на этот вызов - поднять еще один раунд. Для этого она должна быть в хорошей позиции, поскольку (на данный момент) она все еще лидирует в гонке. Однако ситуация может быть более сложной. Что, если Чак сможет обеспечить доступ к данным с помощью стратегических отношений? Например, представьте, что мы говорим о стартапе по диагностике рака. Чак мог использовать свое положение инсайдера в важном медицинском учреждении и заключить выгодную сделку с указанным учреждением. Для Боба вполне может быть невозможно сопоставить это.

Итак, как вы подойдете к созданию поддерживаемого конкурентного преимущества для продукта ИИ? Некоторое время назад я имел удовольствие разговаривать с Антонио Криминиси из Microsoft Research. Он считает, что секретный соус проекта не должен состоять только из искусственного интеллекта. Например, его проект InnerEye использует AI и классическое (не основанное на ML) компьютерное зрение для анализа радиологических изображений. В некоторой степени это может противоречить тому, зачем вы вообще создаете стартап с ИИ. Возможность просто набросать данные на модель и увидеть, как она работает, невероятно привлекательна. Однако традиционный программный компонент, который требует, чтобы программисты думали об алгоритмах и использовали некоторые трудные для получения знания предметной области, гораздо труднее воспроизвести.

ИИ лучше всего использовать как рычаг

Один из способов категоризации чего-либо в бизнесе - это то, добавляет ли оно ценность напрямую или предоставляет рычаги влияния на какой-либо другой источник ценности. Возьмем для примера компанию электронной торговли. Если вы создали новую линейку продуктов, вы добавили стоимость напрямую. Ничего не было, теперь виджеты есть, и покупатели могут за них платить. С другой стороны, создание нового канала сбыта - это рычаг. Начав продавать свои виджеты на Amazon, вы можете удвоить объем продаж. Снижение затрат - это тоже рычаг. Если вы заключите более выгодную сделку с китайским поставщиком виджетов, вы можете удвоить свою валовую прибыль.

Рычаги могут перемещать иглу дальше, чем прямое приложение силы. Однако рычаг работает только в сочетании с прямым источником ценности. Крошечное число не перестает быть маленьким, если вы удвоите или утроите его. Если у вас нет виджетов для продажи, поиск нового канала распространения - пустая трата времени.

Как мы должны смотреть на ИИ в этом контексте? Есть множество компаний, которые пытаются сделать ИИ своим прямым продуктом (API для распознавания изображений и т.п.). Это может быть очень заманчиво, если вы эксперт по ИИ. Однако это очень плохая идея. Во-первых, вы конкурируете с такими компаниями, как Google и Amazon. Во-вторых, создать действительно полезный универсальный ИИ-продукт - безумно сложно. Например, я всегда хотел использовать Vision API от Google. К сожалению, мы так и не встретили клиента, потребности которого были бы адекватно удовлетворены предложением. Этого всегда было слишком много или недостаточно, и разработка по индивидуальному заказу была предпочтительнее, чем установка квадратного штифта в круглое отверстие.

Гораздо лучший вариант - рассматривать ИИ как рычаг. Вы можете взять существующую работающую бизнес-модель и дополнить ее искусственным интеллектом. Например, если у вас есть процесс, который зависит от когнитивного труда человека, его автоматизация творит чудеса с вашей валовой прибылью. Некоторые примеры, которые я могу придумать, - это анализ ЭКГ, промышленный контроль, анализ спутниковых изображений. Также интересно то, что, поскольку ИИ остается в бэкэнде, у вас есть некоторые варианты, не связанные с ИИ, для создания и поддержания вашего конкурентного преимущества.

Заключение

ИИ - это поистине революционная технология. Однако основать свой стартап на этом - непростой бизнес. Не следует полагаться исключительно на свои навыки искусственного интеллекта, поскольку они теряют ценность из-за более крупных рыночных тенденций. Создание моделей искусственного интеллекта может быть очень интересным, но действительно важно иметь данные лучше, чем у конкурентов. Поддерживать конкурентное преимущество сложно, особенно если вы столкнетесь с конкурентом, который богаче вас, что, скорее всего, произойдет, если ваша идея искусственного интеллекта получит успех. Вы должны стремиться создать масштабируемый процесс сбора данных, который будет трудно воспроизвести вашим конкурентам. ИИ хорошо подходит для подрыва отраслей, которые полагаются на когнитивную работу низкоквалифицированных людей, поскольку позволяет автоматизировать эту работу.