машинное обучение и большие данные что это

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

машинное обучение и большие данные что это

Почему все молятся на биг дату

Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

машинное обучение и большие данные что это

Преимущества больших данных:

Наука о данных

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:

машинное обучение и большие данные что это

Аналитика

Аналитика — это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных

Анализ данных — это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:

машинное обучение и большие данные что это

Отбор данных

Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Дата майнинг — это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Источник

Bigdata, машинное обучение и нейросети – для руководителей

Если менеджеру попытаться разобраться в этой области и получить конкретные бизнес-ответы, то, скорее всего, страшно заболит голова и екнет сердце от ощущения ежеминутно упускаемой выгоды.

«AlphaGo обыграл чемпиона по Go» впервые за всю историю человечества, скоро наши улицы заполонят беспилотные автомобили, распознавание лиц и голоса теперь в порядке вещей, а в квартиру к нам завтра постучатся AI-секс-куклы с грудью наивысшего размера с шампанским под мышкой и настраиваемым уровнем интенсивности и продолжительности оргазма.

Все оно так, но что делать-то прямо сейчас. Как на этом заработать в краткосрочной перспективе? Как заложить прочный фундамент на будущее?

Постараюсь дать исчерпывающие ответы на все мучающие вас вопросы, «вскрыть» подводные камни и, главное — здраво оценить риски в AI и научиться ими правильно управлять. Ведь то, что не понимаем, то и не “танцуем”.

Много «мути» и сложных слов

Это, пожалуй, самое страшное – когда бизнесмен «попадает на науку».

Если у человека от квадратного уравнения в школе до сих пор болит голова и подергивается правое ухо на левой ноге, то от слова «перцептрон» может вообще произойти потеря сознания и неконтролируемое мочеиспускание.

Поэтому дальше – говорим только понятными словами. Чтобы было легче – представим, что мы сидим в баньке, пьем пиво и рассуждаем человеческим языком.

машинное обучение и большие данные что это

«Умные» коробочки с очень высокими амбициями

Как проще всего понять принципы применения моделей машинного обучения в бизнесе? Представьте себе робота, или «умную» коробочку с претензией на решение сложнейших задач.

Решать такие задачи в лоб — нереально. Машине нужно буквально прописать миллионы правил и исключений – поэтому так никто не делает.

Делают иначе – «умные» коробочки обучают на данных, например о ваших клиентах. А если BigData у вас уже есть, то «умная» коробочка потенциально может стать еще «умнее» — опережая «коробочки» конкурентов или обычных сотрудников не только по скорости, но и по качеству решений.

Итого, делаем глоток пива и запоминаем – чем больше данных вы сможете достать, тем более «умной» станет ваша робо-коробочка.

машинное обучение и большие данные что это

Сколько нужно данных?

Комично, но у человечества до сих пор нет точного ответа на этот вопрос. Но зато известно, что чем больше «качественных» данных— тем лучше.

И только нейросети, как правило, лучше других известных сейчас способов, могут качественно вытащить информацию из этих данных.

На пальцах — принято считать, что различные алгоритмы НЕ на нейросетях способны обучаться на десятках, сотнях и тысячах (и даже больше) примеров. И даже неплохо работать. Но обучать их на реально больших объемах данных — часто бессмысленно и бесполезно. Подобные алгоритмы просто не в состоянии «впитать» в себя знания, сколько бы мы не пытались в них засунуть.

Нейросети же, особенно «глубокие», содержат каскады нейронных слоев и килограммы сложно объяснимых алгоритмических «потрохов». Им, часто, гораздо лучше «скармливать» сотни тысяч и миллионы примеров из BigData. Но… десятки и сотни примеров им не подойдут — они их просто запомнят и не смогут адекватно предсказывать будущее на новых данных.

Поэтому. Делаем глоток пива, обнимаем девушку за талию и запоминаем — если данных мало – то НЕ нейросети (а, например, catboost), если много – нейросети, а если данных очень много – то ТОЛЬКО нейросети. Сложные, интересные, привлекательные и «глубокие» (deep learning).

машинное обучение и большие данные что это

Какие нужны данные?

Комично до слез, но разумного ответа на этот вопрос пока тоже нет: cобирайте все, что можно и нельзя. За примером не нужно далеко ходить: крупные вендоры типа Google, Facebook, Amazon, Яндекс, Mail.ru успешно делают это уже многие годы, почти нас не спрашивая. Дальше — будет еще хуже.

Активность людей, интересы, пристрастия, перемещения, знакомые – все это фиксируется в часто достаточно обезличенной форме. Но… с привязкой к идентификатору человека.
Банально — по кукам в браузере или по номеру мобильного телефона. А когда к вам на сайт приходит кто-то в интернете, вы легко можете достать цифровую историю следов этой личности — и не важно, это Иван Иванович или «abh4756shja» — он интересуется ритуальными топорами, так покажем ему все их разновидности!

Если говорить более конкретно, то, например, от клиентов компании обычно собирают такую статистику:

Интернет-магазины обычно фиксируют посещенные страницы и их названия. заказанные товары, поисковые запросы, обращения в чат поддержки.

В итоге, забираемся на полочку повыше, там, где в баньке погорячее. Ибо дальше будет еще жарче. И фиксируем в голове – нужно собирать/покупать все что МОЖНО о наших клиентах. Все, что характеризует их активность, динамику и интересы.

Чем больше всякой биометрии и телеметрии мы соберем — тем лучше мы сможем потом обучить «умную коробочку» и дальше сможем оторваться от наших конкурентов.

машинное обучение и большие данные что это

Риски – качество данных

Рассмотрим пример. Допустим, мы пытаемся определить — беременна ли сотрудница нашей компании? Для этого предварительно собираем несколько параметров:

Если соберем десятки, а желательно сотни (тысячи) примеров и они не будут повреждены багами программистов то, скорее всего, наша предиктивная модель обучится хорошо. Но если мы решили собирать 500 параметров по каждой беременности, а статистики по поведению беременных сотрудниц у нас всего на 10 примеров из реальной жизни — это не сработает. Даже ребенок поймет — так «умная» коробочка ничему толковому не научится, т.к. данные будут сильно разряженными.

А бывает еще так, особенно в крупных компаниях. Вы — большой босс или маленький боссик, отвечающий за крупный рост конверсии (так тоже иногда бывает). Аналитики приносят вам данные о покупателях. Но глаза «дающих» спрятаны или бегают. Или выпучены в безумной отваге. В общем, вы сомневаетесь в качестве этой бигдаты. И это — правильно.

Чтобы распознать подвох — разузнайте об использовании инженерных практик в подразделениях разработки у технического директора:

Пишут ли команды программистов модульные и интеграционные тесты к коду?

К сожалению, часто бывает так: программист увольняется, а те, кто остался, не понимают «как оно работает». А дальше разработчики легко могут поломать код. В любой момент. Пока не узнают об этом из жалоб от разгневанных клиентов. Или об этом узнаете вы, когда не сможете обучить нейронку из-за «кривой» бигдаты.

Настроено ли автоматизированное тестирование и мониторинг инфраструктуры, которая собирает данные о ваших покупателях? Ведется ли точный учет и отработка ошибок? Или определить процент потерянных данных без экзорциста невозможно?

Если все это есть — то, скорее всего, вам принесли качественную bigdata, иначе — толку от собранных данных будет мало, но, все же, попробовать стоит.

машинное обучение и большие данные что это

Данные есть. Что дальше?

Хотите на пальцах понять, что умеет обученная на собранных данных «предиктивная» модель? В большинстве случаев она может ответить «да» или «нет», уверенно или не уверенно и … всё. Обязательно, прямо сейчас, напишите фразу «предиктивная» модель несколько раз на спине загорелой девушки, сидящей рядом на банной полке, затем нанесите несколько шлепков дубовым веником. Повторите.

Пример. Вы — интернет-провайдер. У вас есть условно-бесплатный клиент. Вы хотите предсказать, перейдет ли он на платный тариф или нет? Ведь если вы сможете заранее знать будущее и еще не проявленные склонности клиентов — вы сможете более эффективно использовать маркетинговый бюджет, работая с потенциальными и не обращая внимания на тех, кто и нас скоро уйдет от вас.

«Нейронка», в лучшем случае, после обучения на данных, ответит вам либо уверенное «да», либо неуверенное «да», либо уверенное «нет», либо неуверенное «нет». И тут нужно очень хорошо понять, как же правильно работать с понятием «уверенности» классификатора и потренироваться.

Допустим, вы отбираете только «уверенные» ответы модели – и вот тут может оказаться, что из 100 ваших клиентов, машина уверенно определит склонность стать платным только для 7 пользователей. А на самом деле у вас 50 потенциально платных клиентов. Т.е. модель, из-за вашей осторожности, не продемонстрировала весь свой предсказательный потенциал.

Если же вы снизите порог «уверенности» и начнете принимать менее уверенные ответы модели — она, скорее всего, вернет вам почти всех действительно потенциально платных клиентов, но и немало других, не платных — а что вы хотите получить, понизив точность?

И вот мы уперлись в понимание качества предиктивной модели или бинарного классификатора. Без него — дальше ну никак. На этой фразе вы можете подавиться, но ничего страшного — дальше будет только хуже 😉 Важно понять, что чем лучше вы натренировали модель, чем более адекватную архитектуру вы подобрали для нейросети, чем больше вы достали bigdata — тем точнее предсказательная модель приблизится к идеалу: предсказывать правильно. В понимании этого принципа — залог вашего успеха.

Сделайте глоточек пива и разберем еще один пример.

машинное обучение и большие данные что это

Качество бинарного классификатора

Допустим, вы собрали данные по 120 клиентам и вы точно знаете — 60 клиентов стали платными, 60 человек ничего не купили. Берем 100 примеров для обучения модели и 20 — для контроля.

Обучаем «умную» коробочку с помощью бесплатного софта и хотим проверить — а как она будет предсказывать поведение НОВЫХ клиентов? Задержитесь на этой фразе и прочувствуйте – бинарный классификатор уже обучен на статистике с уже известным исходом. Клиент или стал «платником», или нет. Ваша цель теперь — применить его на новых клиентах, которых Скайнет в глаза не видел, и заставить его предсказать – купит он ваш продукт или нет?

Поняли идею? У вас получился оракл, мать его за ногу! Оно действительно работает! В этом — сила и суть машинного обучения. Обучиться на исторических данных и предсказывать будущее!

Итак, вернемся на грешную землю.

Вы обучили «нейронку» на 100 клиентах. Берем оставшиеся 20, которые «умная» коробочка еще не видела и проверяем — что она скажет?

Вам заранее известно — 10 клиентов из оставшихся стали платными, а 10 – не стали.

В идеале классификатор должен «уверенно» ответить «да» по 10 и «уверенно» ответить «нет» по 10 оставшимся клиентам.

Порог «уверенности» установим в >=90% или >=0.9 из 1.0.

На этом этапе можно начать «крутить» порог уверенности вверх, часто получая гораздо меньше уверенных ответов, зато без ошибок (предсказание платника, когда на самом деле нужно было предсказать бесплатника): нужно было предсказать 10 платников из 10, а предсказали только 4.

И наоборот, если покрутить порог уверенности вниз – «коробочка» начнет делать больше предсказаний, но будет больше ошибаться и говорить на черное-белое и наоборот.

Еще раз: по порогу уверенности есть 2 варианта «выкручивания громкости»:

Чтобы не сойти с ума в оценке качества бинарных классификаторов, придумали простой параметр AUC. Чем он ближе к 1, тем ближе ваша модель к идеалу. И тем ближе вы к идеальному предсказанию покупок клиентов.

Еще раз, только проще, но теперь с KPI и премиями:

В общем, самое простое тут: установите вашей команде целевой KPI по качеству классификатора AUC — максимально приблизиться к показателю 1.0 и вы наверняка обойдете конкурентов!

машинное обучение и большие данные что это

Бизнес-применение «умных» коробочек

Вы еще живы? Правильно, дальше будет самое интересное.

Окунувшись в леденящую воду математики и протрезвев, предлагаю вернуться к девушкам и естественным удовольствиям.

Теперь вы знаете, что нужно для получения качественной «нейронки». А где их сейчас применяют? Да везде, где нужно получить ответ «да» или «нет»:

машинное обучение и большие данные что это

В «Битрикс24» мы успешно применяли и применяем бинарные классификаторы для предсказаний:

машинное обучение и большие данные что это

А еще весь этот хайтек сейчас активно применяют и в персонализации товаров и услуг, и в задачах CRM и где только не применяют и дальше будет хуже.

Персонализация услуг и автоматизация работы маркетинга

Я веду вас к одному правильному выводу: на кой крендиль делать лишнюю работу своими руками, если ее можно автоматизировать? Для этого — созданы программисты и для этого созданы предсказательные модели.

«Умные» коробочки и другие виды предиктивных моделей можно легко внедрить для автоматизации рутины, например, отдела маркетинга: авто-таргетирование рекламных предложений на сайте или в email-рассылке.

Так сделайте же это скорее! Интегрируйте в ваш интернет-магазин робота, который будет предлагать вашим посетителям персонализированные товары и услуги.
Конверсия и лояльность ваших клиентов гарантированно вырастет.

Самый простой способ это сделать — обучение нескольких бинарных классификаторов для каждой группы товаров. А еще лучше — для каждой предлагаемой услуги на основе бигдаты покупок ваших клиентов.

Потом, когда клиент вернется на ваш сайт, AI сразу «поймет» чем его можно «зацепить». Это же так просто.

Видите, сколько появилось простых и эффективных способов увеличить конверсию. Так реализуйте их скорее.

машинное обучение и большие данные что это

В чем подвох?

Да, это все просто. На самом деле.

Внедрить предиктивные модели, нарастить проектную мощность маркетинга и конверсию в CRM – действительно несложно. Более того – возможно вам вообще не придется ничего покупать. Софт для обучения «Скайнетов» сейчас совершенно бесплатный. И его полно.

Если совсем лень в пень – можно поднять модель в облаке и оплачивать лишь хостинг, например в Amazon Machine Learning.

Но почему мы видим такие технологии в основном только в западных компаниях, решениях и продуктах? Ответ прост – инертность, нежелание менеджмента среднего звена развивать эффективность компании. В конце концов, просто… всем пофиг.

Я искренне убежден, в ближайшее время нас захлестнет поток решений на базе предиктивной аналитики и «нейронного» маркетинга. Это хорошо видно по скорости внедрения машинного обучения в рекламные сервисы Facebook, Google, Яндекс и Mail.ru. Кто не внедрит — уступит место конкурентам.

Достаточно вспомнить относительно недавние возможности по выгрузке в Facebook или Google хэшей от емейлов и телефонов ваших клиентов и математическое расширение рекламной аудитории чтобы понять, что дальше будет только … лучше и веселее

Еще одна причина – маркетологи часто просто не понимают, что дает им машинное обучение! Сколько времени у них освободится на креатив, если закрыть рутинное таргетирование и персонализацию рекламных предложений и email-рассылок с помощью «Скайнетов»!

Поэтому я и пишу такие подробные обзорные статьи для менеджмента. Кто, кроме топ-менеджеров или инициативных сотрудников, сможет продвинуть в компаниях настолько революционные проекты?

План действий

В принципе, теперь вы знаете достаточно, чтобы эффективно внедрить машинное обучение, предиктивный маркетинг, повысить конверсию и автоматизировать кучу рутины.

Давайте я опишу конкретные шаги к цели:

Раз. С помощью подразделения разработки или руками одного талантливого инженера – собираете данные о клиентах или покупаете их. Начните со сбора данных на сайте или в мобильном приложении. 5 строк правильно работающего г… нокода — и вы начнете получать статистику уже через 72 часа

Два. Руками одного аналитика создаете несколько предиктивных моделей, они же – бинарные классификаторы. Можно вообще ничего не программировать, а сразу загрузить данные в Amazon Machine Learning (https://aws.amazon.com/aml/details/).

Три. Внедряете «Скайнет» в ваши бизнес-процессы на сайт и в мобильное приложение

ЧеРтыре. Собираете обратную связь по качеству работы предиктивных моделей. Например, через статистику, голосование, анкеты. Цель – убедиться, что ваш обученный AI нормально работает с реальными данными.

Есть очень простое правило – обновлять эти модели раз, скажем, в PI (пи) — месяцев. Кому-то чаще, кому-то реже.

Если конверсия выше, чем без использования моделей – значит можно модели не обновлять. Упала – обновляйте.

Пять. Направьте освободившиеся ресурсы из подразделения маркетинга для решения более насущных задач – например на подготовку более качественных презентаций, вычитку текстов, создание красивых текстов для таргетированной рекламы.

Теперь таргетированием и персонализацией у вас занимаются роботы, а творчеством – люди – как и задумано в «первый день творения».

Шесть. Наслаждайтесь эффективностью, ищите новые точки бизнеса, где предиктивные бинарные классификаторы смогут защитить людей от рутины!

Друзья, на этом у меня пока все. Удачи вам, успешной автоматизации рутины, послушных роботов и хорошего настроения!

Источник

Введение в машинное обучение

1.1 Введение

Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.

Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.

Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.

Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).

1.2 Типы задач машинного обучения

Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.

1)Задача регрессии – прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании.

2)Задача классификации – получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком.

3)Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).

4)Задача уменьшения размерности – сведение большого числа признаков к меньшему (обычно 2–3) для удобства их последующей визуализации (например, сжатие данных).

5)Задача выявления аномалий – отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии – явление редкое, и обучающих примеров, на которых можно натаскать машинно обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.

1.3 Основные виды машинного обучения

Основная масса задач, решаемых при помощи методов машинного обучения, относится к двум разным видам: обучение с учителем (supervised learning) либо без него (unsupervised learning). Однако этим учителем вовсе не обязательно является сам программист, который стоит над компьютером и контролирует каждое действие в программе. «Учитель» в терминах машинного обучения – это само вмешательство человека в процесс обработки информации. В обоих видах обучения машине предоставляются исходные данные, которые ей предстоит проанализировать и найти закономерности. Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить. Эту разницу легко понять на примерах.

Машинное обучение с учителем

Предположим, в нашем распоряжении оказались сведения о десяти тысячах московских квартир: площадь, этаж, район, наличие или отсутствие парковки у дома, расстояние от метро, цена квартиры и т. п. Нам необходимо создать модель, предсказывающую рыночную стоимость квартиры по её параметрам. Это идеальный пример машинного обучения с учителем: у нас есть исходные данные (количество квартир и их свойства, которые называются признаками) и готовый ответ по каждой из квартир – её стоимость. Программе предстоит решить задачу регрессии.

Ещё пример из практики: подтвердить или опровергнуть наличие рака у пациента, зная все его медицинские показатели. Выяснить, является ли входящее письмо спамом, проанализировав его текст. Это всё задачи на классификацию.

Машинное обучение без учителя

В случае обучения без учителя, когда готовых «правильных ответов» системе не предоставлено, всё обстоит ещё интереснее. Например, у нас есть информация о весе и росте какого-то количества людей, и эти данные нужно распределить по трём группам, для каждой из которых предстоит пошить рубашки подходящих размеров. Это задача кластеризации. В этом случае предстоит разделить все данные на 3 кластера (но, как правило, такого строгого и единственно возможного деления нет).

Если взять другую ситуацию, когда каждый из объектов в выборке обладает сотней различных признаков, то основной трудностью будет графическое отображение такой выборки. Поэтому количество признаков уменьшают до двух или трёх, и становится возможным визуализировать их на плоскости или в 3D. Это – задача уменьшения размерности.

1.4 Основные алгоритмы моделей машинного обучения

1. Дерево принятия решений

Это метод поддержки принятия решений, основанный на использовании древовидного графа: модели принятия решений, которая учитывает их потенциальные последствия (с расчётом вероятности наступления того или иного события), эффективность, ресурсозатратность.

Для бизнес-процессов это дерево складывается из минимального числа вопросов, предполагающих однозначный ответ — «да» или «нет». Последовательно дав ответы на все эти вопросы, мы приходим к правильному выбору. Методологические преимущества дерева принятия решений – в том, что оно структурирует и систематизирует проблему, а итоговое решение принимается на основе логических выводов.

2. Наивная байесовская классификация

Наивные байесовские классификаторы относятся к семейству простых вероятностных классификаторов и берут начало из теоремы Байеса, которая применительно к данному случаю рассматривает функции как независимые (это называется строгим, или наивным, предположением). На практике используется в следующих областях машинного обучения:

Всем, кто хоть немного изучал статистику, знакомо понятие линейной регрессии. К вариантам её реализации относятся и наименьшие квадраты. Обычно с помощью линейной регрессии решают задачи по подгонке прямой, которая проходит через множество точек. Вот как это делается с помощью метода наименьших квадратов: провести прямую, измерить расстояние от неё до каждой из точек (точки и линию соединяют вертикальными отрезками), получившуюся сумму перенести наверх. В результате та кривая, в которой сумма расстояний будет наименьшей, и есть искомая (эта линия пройдёт через точки с нормально распределённым отклонением от истинного значения).

Линейная функция обычно используется при подборе данных для машинного обучения, а метод наименьших квадратов – для сведения к минимуму погрешностей путем создания метрики ошибок.

4. Логистическая регрессия

Логистическая регрессия – это способ определения зависимости между переменными, одна из которых категориально зависима, а другие независимы. Для этого применяется логистическая функция (аккумулятивное логистическое распределение). Практическое значение логистической регрессии заключается в том, что она является мощным статистическим методом предсказания событий, который включает в себя одну или несколько независимых переменных. Это востребовано в следующих ситуациях:

Это целый набор алгоритмов, необходимых для решения задач на классификацию и регрессионный анализ. Исходя из того что объект, находящийся в N-мерном пространстве, относится к одному из двух классов, метод опорных векторов строит гиперплоскость с мерностью (N – 1), чтобы все объекты оказались в одной из двух групп. На бумаге это можно изобразить так: есть точки двух разных видов, и их можно линейно разделить. Кроме сепарации точек, данный метод генерирует гиперплоскость таким образом, чтобы она была максимально удалена от самой близкой точки каждой группы.

SVM и его модификации помогают решать такие сложные задачи машинного обучения, как сплайсинг ДНК, определение пола человека по фотографии, вывод рекламных баннеров на сайты.

Он базируется на алгоритмах машинного обучения, генерирующих множество классификаторов и разделяющих все объекты из вновь поступающих данных на основе их усреднения или итогов голосования. Изначально метод ансамблей был частным случаем байесовского усреднения, но затем усложнился и оброс дополнительными алгоритмами:

Кластеризация заключается в распределении множества объектов по категориям так, чтобы в каждой категории – кластере – оказались наиболее схожие между собой элементы.

Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:

8. Метод главных компонент (PCA)

Метод главных компонент, или PCA, представляет собой статистическую операцию по ортогональному преобразованию, которая имеет своей целью перевод наблюдений за переменными, которые могут быть как-то взаимосвязаны между собой, в набор главных компонент – значений, которые линейно не коррелированы.

Практические задачи, в которых применяется PCA, – визуализация и большинство процедур сжатия, упрощения, минимизации данных для того, чтобы облегчить процесс обучения. Однако метод главных компонент не годится для ситуаций, когда исходные данные слабо упорядочены (то есть все компоненты метода характеризуются высокой дисперсией). Так что его применимость определяется тем, насколько хорошо изучена и описана предметная область.

9. Сингулярное разложение

В линейной алгебре сингулярное разложение, или SVD, определяется как разложение прямоугольной матрицы, состоящей из комплексных или вещественных чисел. Так, матрицу M размерностью [m*n] можно разложить таким образом, что M = UΣV, где U и V будут унитарными матрицами, а Σ – диагональной.

Одним из частных случаев сингулярного разложения является метод главных компонент. Самые первые технологии компьютерного зрения разрабатывались на основе SVD и PCA и работали следующим образом: вначале лица (или другие паттерны, которые предстояло найти) представляли в виде суммы базисных компонент, затем уменьшали их размерность, после чего производили их сопоставление с изображениями из выборки. Современные алгоритмы сингулярного разложения в машинном обучении, конечно, значительно сложнее и изощрённее, чем их предшественники, но суть их в целом нем изменилась.

10. Анализ независимых компонент (ICA)

Это один из статистических методов, который выявляет скрытые факторы, оказывающие влияние на случайные величины, сигналы и пр. ICA формирует порождающую модель для баз многофакторных данных. Переменные в модели содержат некоторые скрытые переменные, причем нет никакой информации о правилах их смешивания. Эти скрытые переменные являются независимыми компонентами выборки и считаются негауссовскими сигналами.

В отличие от анализа главных компонент, который связан с данным методом, анализ независимых компонент более эффективен, особенно в тех случаях, когда классические подходы оказываются бессильны. Он обнаруживает скрытые причины явлений и благодаря этому нашёл широкое применение в самых различных областях – от астрономии и медицины до распознавания речи, автоматического тестирования и анализа динамики финансовых показателей.

1.5 Примеры применения в реальной жизни

Пример 1. Диагностика заболеваний

Пациенты в данном случае являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи:

Пример 2. Поиск мест залегания полезных ископаемых

В роли признаков здесь выступают сведения, добытые при помощи геологической разведки: наличие на территории местности каких-либо пород (и это будет признаком бинарного типа), их физические и химические свойства (которые раскладываются на ряд количественных и качественных признаков).

Для обучающей выборки берутся 2 вида прецедентов: районы, где точно присутствуют месторождения полезных ископаемых, и районы с похожими характеристиками, где эти ископаемые не были обнаружены. Но добыча редких полезных ископаемых имеет свою специфику: во многих случаях количество признаков значительно превышает число объектов, и методы традиционной статистики плохо подходят для таких ситуаций. Поэтому при машинном обучении акцент делается на обнаружение закономерностей в уже собранном массиве данных. Для этого определяются небольшие и наиболее информативные совокупности признаков, которые максимально показательны для ответа на вопрос исследования – есть в указанной местности то или иное ископаемое или нет. Можно провести аналогию с медициной: у месторождений тоже можно выявить свои синдромы. Ценность применения машинного обучения в этой области заключается в том, что полученные результаты не только носят практический характер, но и представляют серьёзный научный интерес для геологов и геофизиков.

Пример 3. Оценка надёжности и платёжеспособности кандидатов на получение кредитов

С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.

Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).

Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».

Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *