Машинное обучение (ML) — это изучение компьютерных алгоритмов, которые автоматически улучшаются благодаря опыту. [1] Оно рассматривается как подмножество искусственного интеллекта. Алгоритмы машинного обучения строят математическую модель на основе выборочных данных, известных как данные для обучения, чтобы делать прогнозы или принимать решения без явного программирования для этого. [2][3]:2 Алгоритмы машинного обучения используются в самых разных приложениях, таких как фильтрация электронной почты и компьютерное зрение, где сложно или невозможно разработать обычные алгоритмы для выполнения необходимых задач.

Машинное обучение тесно связано с вычислительной статистикой, которая фокусируется на прогнозировании с помощью компьютеров. Изучение математической оптимизации поставляет методы, теорию и области применения в область машинного обучения. Интеллектуальный анализ данных — это родственная область исследования, фокусирующаяся на исследовательском анализе данных посредством обучения без учителя.[4]»[5] В своем применении к бизнес-задачам машинное обучение также называют аналитика».

Отношение к искусственному интеллекту[править]

Как научное направление машинное обучение выросло из поиска искусственного интеллекта. На заре ИИ как академической дисциплины некоторые исследователи были заинтересованы в том, чтобы машины учились на данных. Они пытались подойти к проблеме с помощью различных символических методов, а также того, что тогда называлось нейронными сетями; в основном это были персептроны и другие модели, которые, как позже выяснилось, были переизобретением обобщенных линейных моделей статистики. [16] Также использовалось вероятностное рассуждение, особенно в автоматизированной медицинской диагностике. [17]»:488

Однако растущий акцент на логическом подходе, основанном на знаниях вызвал раскол между ИИ и машинным обучением. Вероятностные системы страдали от теоретических и практических проблем сбора и представления данных. [17]:488 К 1980 году экспертные системы стали доминировать в ИИ, а статистика вышла из моды. / обучение, основанное на знаниях, действительно продолжалось в рамках ИИ, что привело к индуктивному логическому программированию, но более статистическое направление исследований теперь находилось за пределами области собственно ИИ, в распознавании образов и поиске информации. [17] :708–710; 755 Примерно в то же время ИИ и компьютерная наука отказались от исследований в области нейронных сетей. Эта линия также была продолжена за пределами области AI/CS, как коннекционизм, исследователями из других дисциплин, включая Хопфилда, Румельхарта и Хинтона. Их главный успех пришелся на середину 1980-х годов, когда они заново изобрели обратное распространение. [17]:25

Машинное обучение, реорганизованное в отдельную область, начало процветать в 1990-х годах. Область изменила свою цель с достижения искусственного интеллекта на решение решаемых проблем практического характера. Он сместил акцент с символических подходов, унаследованных от ИИ, на методы и модели, заимствованные из статистики и теории вероятностей. поле ИИ. Тем не менее, некоторые практики, например, доктор Дэниел Хьюм, который обучает ИИ и руководит компанией, работающей в этой области, утверждают, что машинное обучение и ИИ — это разные вещи. [7][19][6]

Отношение к интеллектуальному анализу данных[править]

Машинное обучение и интеллектуальный анализ данных часто используют одни и те же методы и значительно пересекаются, но в то время как машинное обучение фокусируется на прогнозировании, основанном на известных свойствах, извлеченных из обучающих данных, интеллектуальный анализ данных фокусируется на обнаружении (ранее) неизвестных свойств в данных (это этап анализа обнаружения знаний в базах данных). Интеллектуальный анализ данных использует множество методов машинного обучения, но с разными целями; с другой стороны, машинное обучение также использует методы интеллектуального анализа данных в качестве обучения без учителя или в качестве этапа предварительной обработки для повышения точности учащихся. Большая часть путаницы между этими двумя исследовательскими сообществами (у которых часто есть отдельные конференции и отдельные журналы, главным исключением является ECML PKDD) происходит из-за основных предположений, с которыми они работают: в машинном обучении производительность обычно оценивается по отношению к способность воспроизводить известные знания, тогда как при обнаружении знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. Неинформированный (неконтролируемый) метод, оцененный по отношению к известным знаниям, будет легко проигрывать другим контролируемым методам, в то время как в типичной задаче KDD контролируемые методы нельзя использовать из-за отсутствия обучающих данных.