Самая большая проблема для внедрения ИИ - это ожидания. Интеграция машинного обучения с правильным набором ожиданий приведет к гораздо более успешному результату, чем заблуждение относительно того, что ИИ может сделать для вас.

Я люблю машинное обучение. Я интегрирую его в бизнес более 3 лет и убедился, что он экономит время и деньги компании во многих различных областях. Но все может пойти на спад довольно быстро, если вы думаете, что получаете одно, а на самом деле получаете другое.

Есть множество отличных вариантов использования машинного обучения, и вы можете прочитать больше о некоторых примерах этих вариантов здесь и здесь.

Давайте уберем очевидное: есть причина, по которой машинное обучение не может предсказывать фондовый рынок. Существуют пределы тому, на что способно современное состояние, что не означает, что не существует множества идеальных вариантов использования машинного обучения, но означает, что вы должны входить в процесс своими глазами. открытым.

Рассмотрим несколько примеров.

Распознавание лиц

Уровень техники распознавания лиц составляет около 99%. Обнаружение лиц - это довольно продвинутый пример машинного обучения, но есть несколько вещей, о которых следует помнить. Прежде всего, эти 99% прибывают из набора проверки. Когда вы видите процентную точность по отношению к алгоритму машинного обучения, эти числа поступают из этапа процесса обучения, на котором 20% обучающих данных отделяются и используются для проверки модели. Этот набор данных обычно выбирается случайным образом, но он всегда аналогичен остальным обучающим данным. Как только вы примените эту обученную модель в реальном мире, вы можете начать показывать ей изображения, которые сильно отличаются от обучающего набора. Таким образом, на практике точность вашего набора данных может упасть ниже 99%.

Иногда модель может думать, что что-то является лицом, когда это не так (ложное срабатывание), или полностью пропускать лицо (ложноотрицательный). Существуют разные модели с разным уровнем точности и обратно пропорциональным уровнем производительности. Вы должны спросить себя, какой уровень точности работы является приемлемым. Если вы обнаруживаете тысячи лиц, получение от 10 до 50 ложных срабатываний или срабатываний предпочтительнее более точного алгоритма, который занимает в 10 раз больше времени на обработку и, следовательно, стоит дороже, но снижает количество ложных срабатываний и отрицаний только наполовину. Человек может быстро исправить небольшую часть ложноотрицательных или положительных результатов.

Итак, когда вы подойдете к этой проблеме в бизнесе, ваши ожидания относительно количества ложноположительных и отрицательных результатов, которые вы можете получить в отношении своих данных, и того, как вы собираетесь их обрабатывать, должны быть ясными. Потому что вы их получите. По правде говоря, иногда он просто не распознает лицо, и мы не знаем почему. Мы настолько привыкли к тому, что наш человеческий мозг распознает закономерности, что забываем, что компьютеры делают это совершенно по-другому (и далеко не так).

Существуют передовые методы очистки наборов данных, которые вы можете реализовать перед запуском модели на всех ваших лицах. Эти передовые методы обычно включают в себя обеспечение того, чтобы каждое лицо было хорошо видно (не под углом), ничем не было скрыто или представлено в странном соотношении сторон. Кроме того, изображения со слишком высоким разрешением могут создавать больше шума, что может вызвать сбой в работе алгоритма распознавания лиц.

Оптическое распознавание символов (OCR)

Текущее состояние OCR для документов очень хорошее. Такие вещи, как обнаружение краев и компьютерное зрение, прошли долгий путь, и чтение букв на отсканированном документе (например) очень хорошо сочетается с этими технологиями.

Где OCR все еще немного затрудняется, так это с изображениями, которые не являются отсканированными документами. Отчасти поэтому у нас есть RECAPTCHA как метод обнаружения человека. Люди удивительно умеют распознавать буквы, где бы они ни появлялись, независимо от того, насколько они затемнены, искажены или окрашены. Компьютеры все еще догоняют.

Это не означает, что OCR невозможно, на самом деле есть много хороших вариантов использования, но важно установить правильные ожидания. Давайте рассмотрим этот кадр из футбольного матча.

Если я использую OCR для очистки этого стоп-кадра, я могу получить следующие данные:

[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN

Без контекста вы не узнаете, что такое счет, номер на футболке, логотип, время или название спортивной команды. Это, конечно, если он вообще улавливает всю эту информацию. На протяжении видео это будет все больше запутываться из-за множества ложных срабатываний и негативов.

Вместо того, чтобы применять универсальное распознавание текста к широкому кругу проблем, подумайте о том, каков вариант использования, и сосредоточьтесь на нем. Если она отслеживает игроков, то система отслеживания объектов может быть лучше подходящей, если она отслеживает время или счет, модель должна быть зафиксирована на одной области для отслеживания.

видео

Видео - хитрое дело. Очень легко ожидать, что все модели машинного обучения на основе визуализации (лицо, изображение, объект, распознавание текста и т. Д.) Будут работать с видео так же, как с фотографиями и неподвижными изображениями. Но так бывает не всегда. Цифровое видео - это мир запутанных кодеров и оболочек в сочетании со степенью сжатия и соотношением сторон.

Когда дело доходит до обработки видео, вы должны использовать более низкое разрешение, иначе вам придется задействовать невероятное количество ресурсов и, вероятно, ждать годы, пока завершится обработка. Но когда у вас видео с более низким разрешением или видео, которое более сжато, часто вы получаете частичные кадры. Вы можете узнать больше о структурах GOP и о том, как это работает здесь, но главное, что видеофайл не обязательно представляет собой непрерывную строку неподвижных изображений. Таким образом, вытаскивание рамок для запуска распознавания лиц и изображений будет работать иначе, чем если бы вы просто запускали их на серии неподвижных фотографий.

Вы можете проверить это сами, поставив на паузу любое видео на YouTube в случайном порядке. Обратите внимание на то, что лица людей иногда бывают очень странными, а иногда они могут быть нечеткими или неверно отображающими то, кем они являются на самом деле. Вот пример стоп-кадра из видеозаписи Рика Санторума.

Посмотрите на некоторые из этих лиц с точки зрения распознавания лиц:

Можете ли вы даже сказать, что тот человек слева - Рик Санторум? Если вы не можете этого сказать, возможно, компьютер тоже.

Человеку легко смотреть видео и узнавать людей, но если бы вы вытащили каждый отдельный кадр, вы бы начали замечать, что качество данных не всегда такое хорошее, как вы думаете.

Означает ли это, что вам не следует использовать машинное обучение для видео? Конечно, нет. Машинное обучение - отличный способ автоматически классифицировать и маркировать активы. Уловка состоит в том, чтобы знать, чего ожидать от результатов. Прохождение этого видео через модель, обученную на каждой знаменитости на планете, может привести к множеству ложных срабатываний (неправильное распознавание кого-то), но запуск его на модели, которая обучена только на политиках США, даст лучшие результаты. Но даже если вы не можете таким образом организовать свои обученные модели, вы все равно можете извлечь пользу, глядя на данные в целом. Если на видео изображен Рик Санторум, то, скорее всего, модель будет правильно идентифицировать его большую часть времени. Вы можете увидеть, какой процент времени он появляется, и сделать некоторые предположения о вероятности того, что он действительно присутствует в видео и где он может появиться. Это не сработает для каждого варианта использования, но если вы подготовитесь немного поэкспериментировать и опробовать разные рабочие процессы и модели (и подумать о проблеме, которую решаете), то у вас все получится.

Как добиться успеха с машинным обучением

Как я уже сказал ранее, машинное обучение - это потрясающе. Он может делать необычные вещи за очень короткое время. Один клиент моей компании смог точно идентифицировать фальшивые исследовательские статьи среди миллионов статей, опубликованных в журналах, другой использует распознавание лиц для аутентификации людей, сдающих экзамены, а другой использует наше обнаружение наготы, чтобы отмечать неприемлемый контент для людей обзор в содержании, представленном пользователем.

У нас есть клиент, который использует нашу систему рекомендаций по контенту, чтобы увеличить доход на своем сайте электронной коммерции, показывая клиентам то, что они с большей вероятностью купят. Это отличный вариант использования, потому что ложные срабатывания и отрицательные результаты не влияют на увеличение дохода. Более того, в некоторых случаях они помогают, исследуя новые вещи, чтобы показать клиентам, с которыми они обычно не сталкивались бы.

Клиенты улучшают поиск, обрабатывая текст с помощью обработки естественного языка, выбирая фотографии, которые вы с большей вероятностью купите, выявляют болезни флоры и фауны на фермах и многое другое с помощью машинного обучения.

Машинное обучение может принести огромную пользу вашему бизнесу, если вы знаете, чего ожидать. А если вы не уверены, напишите мне, я буду рад помочь вам оценить ваши варианты использования.