основы и практика business intelligence
Что такое Business Intelligence
Существует огромное количество терминов: аналитика, data mining, анализ данных, business intelligence и разница между ними не всегда столь очевидна даже для людей, которые с этим связаны. Сегодня мы расскажем о том, что же такое Business Intelligence (BI) доступным и понятным языком. Тема безусловна огромна и её не покрыть лишь одной короткой статьей, но наша задача — помочь сделать первый шаг и заинтересовать читателя темой. Заинтересованный же читатель также найдет исчерпывающий список для дальнейших шагов.
Зачем всё это нужно: из жизни аналитика
Представим, нами (неким аналитиком Петровичем у поставщика Цветочек) стоит задача оценить продажи ряда магазинов (куда мы поставляем товар) и каждый магазин ведет свой учет проданных товаров. Реальность такова, что формы учета будут заполнены не пойми как и не пойми кем, то есть у них будет разная структура и разный формат хранения (некоторая форма таблиц). Схематично эта задача изображена на схеме выше.
Казалось бы задача несложная и поэтому рассмотрим лобовое решение: пусть у нас есть N таблиц и нам нужно их собрать вместе в одну таблицу, тогда напишем N скриптов, которые преобразуют эти таблицы и один сборщик, который собирает их вместе.
Если мы поднимемся на уровень целой организации, то увидим, что проблем даже больше.
В чем задача: проблема на уровне компании
Производитель Цветочек на самом деле работает не напрямую с магазинами, а через некоторых посредников. Посредники посещают магазины и непосредственно своими действиями пытаются стимулировать продажи. Соответственно, они являются материально заинтересованными лицами и информацию, которую они выдают, приходится перепроверять.
Принципиально, задача выглядит схожим образом: пусть у нас есть N магазинов и K дистрибьюторов, можем ли агрегировать данные магазинов и сравнить их с результатами дистрибьюторов? (У всех данные имеют разную структуру и формат.)
Здесь помимо таблиц, мы уже можем столкнуться с целым зоопарком форматов, к которым добавляются отчеты дистрибьюторов. Как правило задача характеризуется очень низким качеством данных, в том числе дублированием, несогласованностью и ошибками. На основе полученных результатов и сравнения данных, отдел по закупкам принимает решения о том сколько, кому и почем чего отгружать. То есть решение этой задачи непосредственно влияет на финансовые показатели компании, что безусловно важно.
Рассмотрим несколько вариантов решения на уровне компании:
В целом если мы говорим о небольшом или среднем производителе, то с точки зрения времени интеграции, цены и качества решения сервис выглядит оптимальным вариантом, так как ценообразование динамическое и интеграция минимальна через веб. Как правило плюсом корпоративного ПО является настраиваемость и касмтомизированность (каждый бизнес считает себя уникальным), но описанная задача достаточно типична и стандартна для достаточно широкого круга компаний. Безусловно, нет единого решения для всех, но для каждого в отдельности его можно найти.
Сам процесс на уровне компании выглядит схожим образом: консолидируется данные, определенным образом трансформируются (агрегируются) и загружаются в систему для анализа.
(кликабельно)
Обобщаем задачу: всё это звенья одной цепи
В чём же разница между аналитикой, data mining и business intelligence (BI)? Первые включают в себя комплекс методов для анализа уже чистых данных, а на практике очистка и преобразование данных в удобный для анализа формат — важный и неотъемлемый процесс. Так же помимо работы с преобразованием и консолидацией данных, основная задача BI — это принятие решений для бизнеса.
Большая инфографика
В схематичной и немного упрощенной форме описывается задача консолидации данных. Если нет возможности заниматься изучением темы в деталях, то эта инфографика даёт хорошее первое приближение проблемы и возможных методов решения. (кликабельно; взято отсюда)
С чем можно поэкспериментировать
Сервис бесплатен и доступен через веб — ссылка.
BI-специалист: что по зарплатам, где и чему учиться и на что обращают внимание работодатели?
Привет! На связи ребята из Hays, и снова полезный, но нескучный материал про очередную профессию. С развитием тренда на цифровизацию профессии в сфере Business Intelligence становятся все более востребованными. Еще каких-то 10 лет назад про них никто не слышал, а сегодня такой отдел есть почти в каждой крупной компании — и работодатели активно обращаются к нам за помощью. А мы опять рады поделиться своей экспертизой и рассказать, кто такой BI-специалист и чем он занимается.
Кто такой BI-специалист?
BI — Business Intelligence — можно перевести на русский язык как «бизнес-аналитика». Несложно догадаться, что BI-специалист — это тот, кто этой аналитикой занимается, то есть специалист, который отвечает за сбор информации из разных источников, ее анализ и представление в наиболее удобном для восприятия виде.
BI-специалисты решают много разных важных для бизнеса задач:
быстро анализируют большие (и ОЧЕНЬ большие) массивы данных,
формируют отчетность (например, в маркетинге, продажах или финансах),
на основе полученных данных оценивают эффективность бизнес-процессов,
автоматизируют отчетность и дашборды.
На основе данных, которые предоставляют BI-специалисты, менеджмент может принимать ключевые решения для развития компании.
Что мотивирует BI-специалистов?
Мы собрали наш ТОП-4 факторов мотивации:
Задачи, над которыми предстоит работать,
Деньги (самый «неочевидный» пункт).
Последний фактор объясняется относительной редкостью профессии. Зарплата Junior’а составляет от 70 до 110 тысяч рублей, Middl’а — от 120 до 200 тысяч, Senior’а — от 190 до 260 тысяч. Зарплата же Head of Department варьируется от 290 до 700 тысяч рублей.
Но если наличие в этом списке финансовой составляющей вопросов не вызывает, то нематериальная мотивация требует некоторого комментария.
Профессия в сфере BI дает возможность получить глубокую техническую экспертизу — за счет того, что специалисты должны постоянно изучать и использовать в работе новые технологические решения.
Кроме того, работа в BI предполагает достаточно плотное погружение в бизнес-процессы, а значит, будет актуальна тем, кто хочет развиваться на стыке IT и бизнеса.
«В работе мне больше всего нравится результат. Приятно видеть, как работают твои модели и сбываются прогнозы», — Алексей, 29 лет, BI-аналитик
Чему учиться и какие навыки развивать?
Среди soft skills для BI-специалиста особо важны усидчивость, педантичность и умение концентрироваться. Кроме того, полезным было бы развить коммуникативные навыки и навыки презентации — чтобы лучше «докладывать» начальству о результатах проделанной работы.
«Новичку я бы посоветовал книги по математической статистике, машинному обучению и анализу данных. А что касается курсов, то из обязательного — Excel, PowerBI и SQL. Еще бы я посоветовал не пренебрегать английским языком: в мире IT это одно из обязательных условий», — Алексей, 29 лет, BI-аналитик.
Не лишним будет технический или математический бэкграунд. Также часто в BI приходят из финансовой сферы.
Что важно работодателям?
Работодатели при выборе кандидатов чаще ориентируются не на отрасль компании, а на то, насколько потенциальный сотрудник способен влиться в корпоративную культуру.
Важны технические навыки, понимание основ работы с SQL-запросами, опыт работы с BI-решениями.
Также ценятся аналитические способности кандидата. Поскольку все имеющиеся на рынке решения более-менее идентичны, имея навыки работы с одним из них, специалисту будет несложно разобраться с другими.
Требования к кандидату обычно выглядят следующим образом.
Высшее профильное образование (информационные технологии, математика, статистика, бизнес-информатика).
Уверенное владение Excel.
Знание / опыт работы с одним из BI-решений.
Наличие представлений хотя бы о базовом SQL.
Опыт работы в роли BI-специалиста от 2-х лет.
Умение писать SQL-запросы.
Опыт разработки отчетов и дашбордов в одном из BI-решений.
Опыт работы в роли BI-специалиста от 4-х лет.
Опыт разработки отчетов и дашбордов с нуля в одном из BI-решений.
Опыт работы с OLAP-кубами.
Глубокое знание архитектуры и функциональных возможностей BI-решений.
Опыт разработки и развития хранилища данных.
Опыт общения с бизнес-заказчиками.
Опыт руководства командой.
Опыт разработки стратегии развития BI.
Опыт взаимодействия с топ-менеджментом.
Наличие реализованных BI-проектов в роли Руководителя команды.
Основы и практика Business Intelligence
Вы научитесь создавать инфраструктуру хранилищ данных, использовать инструменты аналитики и визуализации. Поймёте, как отображать сложные данные о бизнес-процессах в понятных графиках, дашбордах и таблицах. Сможете быстро понять, как развивать бизнес и принимать решения.
На рынке не хватает специалистов
сейчас ищут BI аналитиков
зарплата начинающего специалиста
Кому подойдёт этот курс
Аналитикам
Научитесь собирать, группировать и обрабатывать данные с помощью языка Python. Освоите Tableau и сможете создавать полезные для бизнеса отчёты.
Программистам
Улучшите навыки работы с SQL, библиотеками на Python и администрирования СУБД. Узнаете методы ведения аналитики, составления отчётов и построения графиков с помощью Tableau. Расширите компетенции: от работы с кодом к решению бизнес-задач.
Веб-аналитикам
Научитесь с помощью API выгружать данные из Яндекс.Метрики, Google Analytics, amoCRM. Сможете быстро получать информацию о показателях бизнеса из аналитических отчётов и использовать её в работе.
Начинающим BI-аналитикам
Поймёте, как автоматизировать рутинные задачи сбора и обработки данных. Сможете больше времени посвящать поиску инсайтов и оптимальных решений.
Чему вы научитесь
Разворачивать хранилища данных
Научитесь создавать реляционные базы данных и хранилища данных, чтобы эффективно обрабатывать бизнес-запросы о продукте, конкурентах, ценообразовании.
Настраивать сбор данных
Разберётесь, как собирать данные из аналитических и рекламных систем и готовить для анализа. Сможете объединить данные из разных источников в одной базе, чтобы иметь полное представление о поставленной бизнес-задаче.
Чистить данные с помощью Python
Научитесь использовать базовые скрипты и библиотеки Python. Поймёте, как исправлять пустые значения ячеек и битые ссылки, чтобы повысить точность анализа.
Работать с SQL
Изучите синтаксис языка SQL. Узнаете, как управлять базами данных с помощью скриптов и писать сложные запросы. Сможете хранить большие объёмы информации и легко находить нужные данные.
Строить карты пользовательского поведения
Научитесь анализировать действия пользователя на сайте или в приложении. Сможете выявлять инсайты и улучшать юзабилити проекта.
Визуализировать данные и готовить отчёты
Узнаете, как создавать дашборды для анализа бизнес-метрик с помощью BI-инструмента Tableau.
О Skillbox
Как пользоваться платформой
Изучаете тему
В курсе — видеоуроки от экспертов.
Выполняете задания
В том темпе, в котором вам удобно.
Работаете с преподавателем
Отрабатываете навыки на реальных кейсах.
Защищаете дипломную работу
И дополняете ей свое портфолио.
Содержание курса
Вас ждут онлайн-лекции и практические задания на основе реальных кейсов.
Создание базы данных
Фундамент хранилища данных
Узнаете, как развернуть виртуальную машину с Linux, научитесь использовать регулярные выражения — один из самых мощных инструментов для поиска данных в тексте.
Создание первой базы данных
Установите систему управления базами данных и научитесь ей управлять: разберётесь в реляционных отношениях между таблицами, изучите способы упорядочивания данных и узнаете, как писать запросы для создания, чтения, изменения и удаления данных (CRUD) на языке SQL.
Скрипты для анализа данных
Разберётесь, как писать продвинутые запросы для выборки и анализировать данные, научитесь создавать хранимые процедуры и транзакции, а также поймёте, как работать с данными в таблице.
Основы Python для аналитики
Знакомство с языком программирования Python и библиотеками
Вы разберётесь в азах Python: изучите основной синтаксис и типы переменных, узнаете, что такое объектно-ориентированное программирование, операторы ветвления и булева алгебра. Поймёте, как работать с файлами и библиотеками.
Создание таблиц
Вы научитесь работать с таблицами DataFrame, узнаете, как импортировать и экспортировать таблицы, использовать статистические функции Python и поймёте, как строить панели данных.
Очистка данных
Вы узнаете, как готовить данные к анализу: находить и удалять битые и пустые значения, реиндексировать таблицы и склеивать массивы.
Python и продвинутая работа с таблицами
Временные ряды и их визуализация
Вы узнаете, что такое временные ряды, научитесь делать выборку данных за определённые периоды и визуализировать их.
Продвинутый уровень построения таблиц
Вы поработаете со сводными таблицами на продвинутом уровне: рассмотрите задачи категоризации, группировки, агрегирования и трансформации на реальных кейсах. Узнаете, как создавать многоуровневые таблицы и превращать сложноструктурированные в формат tidy.
Решение бизнес-задач с помощью аналитики
Методы сбора внешних данных
Вы освоите способы парсинга внешних данных с помощью модулей BeautifulSoup, Scrapy и Selenium, а также разберётесь с основами клиент-серверного взаимодействия.
Наполнение хранилища данными
Вы узнаете, как с помощью API выгружать данные из Google Analytics, Яндекс.Метрики, Яндекс.Директа, amoCRM, обработаете их и поместите в хранилище данных.
Аналитика в бизнес-задачах
Вы узнаете, какие задачи нельзя решить обычными методами, но можно с помощью аналитики, изучите типовые методы анализа и разберётесь, как визуализировать данные для создания понятных отчётов.
Визуализация данных в Tableau
Знакомство с интерфейсом
Вы разберётесь с интерфейсом системы бизнес-аналитики Tableau и подготовите её для работы: настроите импорт данных, создадите вычисляемые показатели и узнаете о способах построения отчётов.
Базовые отчёты
Вы научитесь строить графики и диаграммы, создавать карты и иерархии, а также добавлять к отчётам интерактивные элементы.
Дипломный проект
Разработка парсера
Вы создадите парсер, который соберёт информацию о BI-специалистах. Напишете код для очистки данных и с помощью Python или SQL перенесёте результаты в базу данных.
Получить презентацию курса и консультацию специалиста
Похоже произошла ошибка. Попробуйте отправить снова или перезагрузите страницу.
Первые шаги в BI-аналитике. Роль Data Engineering
Добрый день, уважаемые читатели! Материал носит теоретический характер и адресован исключительно начинающим аналитикам, которые впервые столкнулись с BI-аналитикой.
Что традиционно понимается под этим понятием? Если говорить простым языком, то это комплексная система (как и, например, бюджетирование) по сбору, обработке и анализу данных, представляющая конечные результаты в виде графиков, диаграмм, таблиц.
Это требует слаженной работы сразу нескольких специалистов. Дата-инженер отвечает за хранилища и ETL/ELT-процессы, аналитик данных помогает в заполнении базы данных, аналитик BI разрабатывает управленческие панели, бизнес-аналитик упрощает коммуникации с заказчиками отчетов. Но такой вариант возможен, только если фирма готова оплачивать работу команды. В большинстве случаев небольшие компании для минимизации затрат делают ставку на одного человека, который зачастую вообще не обладает широким кругозором в области BI, а имеет лишь шапочное знакомство с платформой для отчетов.
В таком случае происходит следующее: сбор, обработка и анализ данных происходит силами единственного инструмента – самой BI-платформой. При этом данные предварительно никак не очищаются, не проходят компоновки. Забор информации идет из первичных источников без участия промежуточного хранилища. Результаты такого подхода можно легко лицезреть на тематических форумах. Если постараться обобщить все вопросы касательно BI-инструментов, то в топ-3 попадут, наверное, следующие: как загрузить в систему плохо структурированные данные, как по ним рассчитать требуемые метрики, что делать, если отчет работает очень медленно. Что удивительно, на этих форумах вы практически не найдете обсуждений ETL-инструментов, описания опыта применения хранилищ данных, лучших практик программирования и запросов SQL. Более того, я неоднократно сталкивался с тем, что опытные BI-аналитики не очень лестно отзывались о применении R/Python/Scala, мотивируя это тем, что все проблемы можно решить только силами BI-платформы. Вместе с тем всем понятно, что грамотный дата инжиниринг позволяет закрывать массу проблем при построении BI-отчетности.
Дальнейший разговор предлагаю построить в форме разбора упрощенных блок-схем. Я сознательно не буду называть конкретные программы, а лишь укажу их класс. Во-первых, это не имеет принципиального значения для раскрытия темы, а, во-вторых, упоминание инструментов сразу приводит к ненужным спорам в комментариях.
«Data – BI» Самый простой вариант. Именно с него начинается прототипирование управленческих панелей. В роли источника данных часто выступает отдельный (-ые) статичный файл (csv, txt, xlsx и т. д.).
Плюсы. Самый быстрый способ построения отчетности. Идеально подходит, для ситуационной аналитики или когда результат нужен был еще вчера. Не требует применения вспомогательных инструментов, следовательно, не нужно тратить ресурсы на их поддержание. Аналитик BI не обязан иметь компетенции в области дата инжиниринга или программирования.
Минусы. Далеко не изо всех источников можно забрать информацию напрямую (пример, прикладные решения на платформе 1С). Если массивы плохо структурированы, то это потребует много дополнительных шагов по их обработке. Качество данных никак не проверяется (проблема дубликатов, пустых строк, некорректного написания значений и т. д.). При большом количестве строк заметно замедляется работа самой BI-платформы, вплоть до полной невозможности перестраивать графики и диаграммы. Нет возможности составить расписание на обновление исходников.
«Data – DB – BI» Вариант похож на предыдущий за тем исключением, что первоначальный массив напрямую заливается в базу в неизмененным виде, а уже к ней идет подключение. База данных может быть как развернута локальна, запущена в контейнере, так и представлена облачным хранилищем.
Плюсы. Есть возможность агрегировать разрозненные, однотипные файлы. Нагрузку по хранению информации теперь несет хранилище. Есть возможность задействовать всю мощь языка запросов SQL (или его диалекта), чтобы отфильтровать или агрегировать сырые строки перед их передачей в BI-инструмент. Уменьшается размер файла с управленческими панелями.
Минусы. Нет контроля над первичными данными, поэтому в хранилище заливается большое количество ненужной информации. Качество загружаемых датасетов никак не контролируется. Добавление данных в базу осуществляется в ручном режиме. Аналитик должен на базовом уровне знать SQL.
«Data – ETL – DB – BI» Частичная автоматизация. В качестве ETL-инструмента может выступать как программный продукт с графическим интерфейсом, так и код написанный на R/Python/Scala и т. д. Все данные проходят предварительный предпроцессинг. Структура наполняемых таблиц прописывается заранее.
Плюсы. Возможность загружать только хорошо структурированную информацию, которая прошла предварительную верификацию. Экономия места в базе данных. Снижается количество доработок на BI-платформе.
Минусы. Аналитик должен уверенно владеть ETL-инструментом и языком запросов SQL. Процесс разработки и тестирования скриптов требует времени. Если источников информации много, то затрудняется синхронизация получения информации.
Для иллюстрации этого варианта я решил написать простейшие скрипты. В рамках «игрушечного» примера я использую SQLite. Это позволит прикрепить базу данных к публикации, чтобы каждый желающий мог попрактиковаться в написании скриптов (архив). Датасет для разбора это E-Commerce Data с сайта Kaggle.
В коде сочетается Extract и Transform. Считываем датасет, парсим столбец с датами. Рассчитываем сумму покупки по каждой строке и удаляем ненужные для дальнейшего анализа колонки. Так как датафрейм записывается в базу данных не монолитом, а разбивается на таблицы, то готовим три вспомогательные функции.
На следующем этапе (Load) мы создаем четыре таблицы. Две из них будут справочниками. Одна содержать сгруппированную информацию по продажам. Нам также потребуется вспомогательная таблица, в которую мы запишем строки с продажами до момента замены текстовых значений на числовые ид. На последнем шаге очистим ее от всех значений.
В заключении нам остается лишь выполнить тестовый запрос SQL, чтобы проверить корректность всех операций. Если все сделано правильно, запускаем BI-платформу.
Так как BI-инструмент не может из коробки напрямую подключиться к SQLite напишем простейший скрипт на Python.
После загрузки данных в систему и проверки корректности распознанных форматов можно приступать к непосредственному построению дашборда.
«Data – Workflow management platform + ETL – DB – BI» Полная автоматизация. Оркестратор скриптов берет на себя контроль за своевременным выполнением всех вспомогательных процессов в системе.
Плюсы. Возможность оптимально настроить время сбора данных из разрозненных источников. Можно мониторить ошибки и перезапускать упавшие задачи.
Минусы. Усложнение инфраструктуры. Рост требований к квалификации аналитика BI. Необходимо осваивать дополнительные инструменты или языки программирования.
«Data – Workflow management platform + ELT – Data Lake – Workflow management platform + ETL – DB – BI» Самый сложный вариант, где информация проходит двухступенчатый конвейер: сначала это неструктурированные данные (Data Lake), а затем уже хранилище (DB), где информация отсортирована и преобразована к требуемому виду.
Плюсы. Возможность разнести во времени сбор информации и ее обработку. Если на этапе проектирования таблиц учтены не все требования, возможно обращение за дополнительными данными в Data Lake.
Минусы. Аналогичны предыдущему варианту. Если выбранная платформа Data Lake – платная, как следствие рост расходов на аналитику компании.
Построение BI-аналитики без даты инжиниринга возможно лишь на старте.
Если аналитик BI работает в единственном числе и система постоянно усложняется, то он обязан подменять собой сразу несколько специалистов.
Понимание базовых принципов построения хранилищ данных, уверенное владение SQL, программирование на каком-либо языке и, конечно, дизайнерские навыки вот далеко не полный перечень требований к сотруднику, которому делегируется проектировать управленческие панели.
На этом все. Всем здоровья, удачи и профессиональных успехов!













