Что такое машинное обучение?
Машинное обучение — это подмножество искусственного интеллекта (ИИ), в котором компьютеры учатся на данных и совершенствуются, не программируя напрямую.
Подробное определение машинного обучения
Машинное обучение является подмножеством искусственного интеллекта. Оно предназначено для обучения компьютеров тому, как учиться на основе данных и совершенствоваться при помощи опыта, а не работать на основе явно запрограммированных алгоритмов. В процессе машинного обучения алгоритмы учатся поиску закономерностей и корреляций в больших наборах данных, а также принятию оптимальных решений и созданию прогнозов на основе этого анализа. Приложения машинного обучения улучшаются по мере использования и становятся точнее по мере роста объема доступных данных.
Примеры использования машинного обучения можно найти повсюду: в доме, в корзине покупок, в развлекательных СМИ и здравоохранении.
Как связаны машинное обучение и искусственный интеллект?
Машинное обучение — и его компоненты глубокого обучения и нейронных сетей — все они вписываются в концентрические подмножества ИИ. ИИ обрабатывает данные для принятия решений и прогнозов. Алгоритмы машинного обучения позволяют ИИ не только обрабатывать эти данные, но и использовать их для обучения и повышения эффективности без необходимости дополнительного программирования. Искусственный интеллект является родительским элементом всех нижестоящих подмножеств машинного обучения. В первом подмножестве находится машинное обучение, в рамках которого выполняется глубокое обучение, а затем нейронные сети.
Что такое нейронная сеть?
Искусственная нейронная сеть (ИНС) моделируется на нейронах биологического мозга. Искусственные нейроны называются узлами; они сгруппированы в несколько слоев, работающих параллельно. Когда искусственный нейрон получает цифровой сигнал, он обрабатывает его и посылает сигналы другим связанным с ним нейронам. Как и в человеческом мозге, нейронное подкрепление способствует улучшению распознавания образов, росту компетентности и оптимизации обучения в целом.
Что такое глубокое обучение?
Этот вид машинного обучения называется «глубоким», поскольку включает в себя множество слоев нейронной сети и огромные объемы сложных и разрозненных данных. В процессе глубокого обучения система взаимодействует с несколькими слоями сети, извлекая все более и более высокоуровневые выходные данные. Например, система глубокого обучения, которая обрабатывает изображения природы в поисках маргаритки Глориоза, на первом уровне распознает растение. По мере перемещения по нейронным слоям она будет идентифицировать цветок, затем маргаритку и, наконец, конкретный требуемый вид. Примерами применения алгоритмов глубокого обучения являются распознавание речи, классификация изображений и фармацевтический анализ.
Как работает машинное обучение?
Машинное обучение состоит из различных типов моделей машинного обучения с использованием различных алгоритмических методов. В зависимости от характера данных и желаемого результата можно использовать одну из четырех обучающих моделей: контролируемая, неконтролируемая, полуконтролируемая или усиленная. Внутри каждой из этих моделей может быть применена одна или несколько алгоритмических методик – относительно используемых наборов данных и предполагаемых результатов. Алгоритмы машинного обучения в основном предназначены для классификации объектов, поиска закономерностей, прогнозирования результатов и принятия обоснованных решений. Алгоритмы могут использоваться по одному или комбинироваться для достижения максимально возможной точности, если задействованы сложные и более непредсказуемые данные.
Как работает машинное обучение
Что такое контролируемое обучение?
Контролируемое обучение — первая из четырех моделей машинного обучения. В алгоритмах КО обучение машины выполняется на примере. Модели контролируемого обучения включают пары «входных» и «выходных» данных, в которых выходные данные помечены требуемым значением. Допустим, наша цель состоит в том, чтобы машина различала маргаритки и фиалки. Одна пара двоичных входных данных включает в себя как изображение маргаритки, так и изображение фиалки. Желаемый результат для этой конкретной пары — это выбор маргаритки, поэтому она будет предварительно обозначена как правильный результат.
С помощью алгоритма система с течением времени компилирует все эти учебные данные и начинает определять корреляционные сходства, различия и другие логические точки — до тех пор, пока она не сможет предсказывать ответы для вопросов «маргаритка или фиалка». Это то же самое, что дать ребенку набор задач с ключом к ответам, а затем попросить его показать свою работу и объяснить логику действий. Модели контролируемого обучения используются во многих приложениях, с которыми мы взаимодействуем каждый день, например в рекомендательных системах для продуктов и в приложениях для анализа трафика, таких как Waze, которые предсказывают самый быстрый маршрут в разное время суток.
Что такое неконтролируемое обучение?
Неконтролируемое обучение — вторая из четырех моделей машинного обучения. В моделях неконтролируемого обучения ключ к ответу не предусмотрен. Машина изучает входные данные, большая часть которых не помечена и не структурирована, и начинает выявлять закономерности и корреляции, используя все релевантные доступные данные. Неконтролируемое обучение во многих аспектах моделируется на основе того, как люди наблюдают за миром. Мы используем интуицию и опыт, чтобы группировать вещи друг с другом. По мере того как мы получаем опыт оценки все большего числа примеров чего-либо, наша способность классифицировать и идентифицировать их становится точнее. Для машин «опыт» определяется объемом вводимых и доступных данных. Распространенными примерами применения алгоритмов неконтролируемого обучения являются распознавание лиц, анализ последовательностей генов, исследования рынка и кибербезопасность.
Что такое полуконтролируемое обучение?
Полуконтролируемое обучение — третья из четырех моделей машинного обучения. В идеальном мире все данные будут структурированы и помечены перед вводом в систему. Однако, поскольку это явно невозможно, в ситуации с огромными объемами необработанных и неструктурированных данных приемлемым решением становится полуконтролируемое обучение. Эта модель подразумевает ввод небольших объемов помеченных данных для дополнения наборов данных, не имеющих меток. По сути, размеченные данные служат для запуска системы и способны значительно повысить скорость и точность обучения. Алгоритм полуконтролируемого обучения учит компьютер анализировать помеченные данные на наличие корреляционных свойств, которые могут быть применены к неразмеченным данным.
Как подробно рассмотрено в этой исследовательской работе MIT Press, существуют, однако, риски, связанные с этой моделью, где недостатки в размеченных данных изучаются и тиражируются системой. Компании, наиболее успешно использующие полуконтролируемое обучение, обеспечивают наличие протоколов передового опыта. Полуконтролируемое обучение используется в речевом и лингвистическом анализе, комплексных медицинских исследованиях, таких как классификация белков, и высокоуровневом выявлении мошенничества.
Что такое обучение с подкреплением?
Обучение с подкреплением — это четвертая из моделей машинного обучения. При контролируемом обучении машина получает ключ к ответу и учится путем нахождения корреляций между всеми правильными результатами. Модель обучения с подкреплением не включает ключ к ответу, а вводит набор допустимых действий, правил и потенциальных конечных состояний. Когда желаемая цель работы алгоритма — фиксированная или двоичная, машины могут обучаться на примере. Но в тех случаях, когда желаемый результат является изменчивым, система должна учиться при помощи опыта и вознаграждения. В моделях обучения с подкреплением «вознаграждение» является числовым и запрограммировано в алгоритме как нечто, что система стремится собрать.
Во многом эта модель напоминает процесс обучения человека игре в шахматы. Конечно, было бы невозможно попытаться показать ему каждый возможный ход. Вместо этого вы объясняете правила, а ученик наращивает свое мастерство при помощи практики. Вознаграждениями являются не только победа в игре, но и захват фигур соперника. Примерами обучения с подкреплением могут служить автоматизированные ценовые торги для покупателей онлайн-рекламы, разработка компьютерных игр и биржевые торги с высокими ставками.
Корпоративное машинное обучение в действии
Алгоритмы машинного обучения распознают закономерности и корреляции, благодаря чему они очень эффективно анализируют собственную окупаемость инвестиций. Компаниям, вкладывающим средства в технологии машинного обучения, эта функция позволяет практически сразу оценить операционный эффект. Ниже вы найдете примеры быстрорастущих областей, где используются корпоративные приложения машинного обучения.
Механизмы рекомендаций. С 2009 по 2017 год число домохозяйств в США, подписанных на сервисы видеотрансляции, выросло на 450%. В опубликованной в 2020 году статье журнала Forbes сообщается о дальнейшем росте показателей потребления видеотрансляций вплоть до 70%. Механизмы рекомендаций применяются на многих розничных и торговых платформах, но именно для сегмента потоковых сервисов музыки и видео они подходят как нельзя лучше.
Динамический маркетинг. Для генерации потенциальных возможностей (лидов) и их проведения через воронку продаж требуется возможность сбора и анализа как можно большего объема данных о клиентах. Современные потребители генерируют огромный объем разнообразных неструктурированных данных — от сообщений в чатах до загруженных изображений. Использование приложений машинного обучения помогает маркетологам понимать эти данные и использовать их для предоставления персонализированного маркетингового контента и взаимодействия с актуальными и потенциальными клиентами в режиме реального времени.
ERP и автоматизация процессов. Базы данных ERP содержат широкие и разрозненные наборы данных, которые могут включать статистику эффективности продаж, обзоры потребителей, отчеты о рыночных тенденциях и записи об управлении цепочкой поставок. Алгоритмы машинного обучения можно использовать для поиска корреляций и шаблонов в таких данных. Затем эти сведения можно использовать для информирования практически всех областей бизнеса, включая оптимизацию потоков операций устройств Интернета вещей в сети или наилучшие способы автоматизации повторяющихся задач, подверженных ошибкам.
Диагностическое техническое обслуживание. Современные цепочки поставок и умные заводы все чаще используют устройства и машины Интернета вещей, а также облачные сервисы для управления всеми транспортными средствами и операциями. Поломка оборудования и низкая эффективность его работы способны привести к колоссальным затратам и сбоям. При сборе данных о техническом обслуживании и ремонте вручную практически невозможно спрогнозировать потенциальные проблемы, не говоря уже об автоматизации процессов их прогнозирования и предотвращения возникновения. Датчики шлюзов Интернета вещей могут устанавливаться даже на аналоговые машины возрастом в несколько десятилетий, обеспечивая прозрачность и эффективность работы в масштабе компании.
Проблемы машинного обучения
В своей книге «Ложные корреляции» специалист по анализу данных, выпускник Гарвардского университета Тайлер Виган (Tyler Vigan) подчеркивает: «Не все корреляции обязательно основаны на причинно-следственной связи». Для иллюстрации он приводит диаграмму, показывающую наличие сильной корреляции между потреблением маргарина и уровнем разводов в штате Мэн. Конечно, к этой диаграмме следует отнестись с юмором. Но если говорить более серьезно, то приложения машинного обучения уязвимы для предвзятости и ошибок — как человеческих, так и алгоритмических. А благодаря их склонности к обучению и адаптации эти ошибки и ложные корреляции могут быстро распространяться по нейронной сети и загрязнять получаемые результаты.
Дополнительную проблему представляют модели машинного обучения, в которых алгоритм и результат его работы настолько сложны, что не могут быть объяснены или поняты человеком. Эта модель носит название «черного ящика»; она подвергает компании риску из-за того, что они оказываются не в состоянии определить, как и почему алгоритм пришел к тому или иному выводу или решению.
К счастью, с увеличением сложности наборов данных и алгоритмов машинного обучения усовершенствуются и доступные инструменты и ресурсы для управления рисками. Лучшие компании работают над устранением ошибок и предвзятости, создавая надежные и современные руководства по управлению ИИ и протоколы лучших практик.