Платформы анализа данных: что они умеют и как понять, нужны ли они вашему бизнесу
23.06.21
Редакция Factory5
Рынок ИТ-продуктов переполнен предложениями платформенных решений для анализа больших данных: их обсуждают, рекомендуют и внедряют, но всем ли они необходимы? Алексей Ершов, эксперт по продуктам Factory5 (входит в группу Ctrl2GO), ответил на главные вопросы об аналитических платформах для ИТ-директоров, менеджеров проектов и других участников data science инициатив на предприятиях.
Объемы данных, которые приходится анализировать современному бизнесу, растут нелинейно, и все больше компаний автоматизируют работу с big data. Также бизнес начинает использовать технологии искусственного интеллекта, в том числе на основе машинного обучения и нейросетей. По данным исследования TAdviser, на конец 2020 года 68% организаций использовали ИИ или машинное обучение, а четверть опрошенных планирует запустить такие решения в ближайшие пару лет. С помощью современных методов анализа больших данных компании оптимизируют производственные процессы, прогнозируют отказы оборудования и отток клиентов, осуществляют кредитный скоринг и умную маршрутизацию звонков, выявляют мошеннические действия.
Далеко не все такие инициативы успешны: глобальные исследования Gartner и других компаний показывают, что до 85% проектов не приносят бизнесу результатов. Например, аналитические модели не получается интегрировать в бизнес-процессы. Это происходит по разным причинам, в том числе техническим. Компании работают со множеством сервисов — иногда от разных производителей. Это и инструменты business intelligence, и реляционные и NoSQL-базы данных, и инструменты для big data и data science. Возникают проблемы с интеграцией, передачей данных и их согласованной обработкой. Часть информации может просто потеряться. Эти трудности решает такой класс продуктов, как платформы для анализа больших данных, или, как еще называют, data science платформы.
Платформы анализа больших данных: что это такое и зачем они нужны
Платформа для обработки больших данных — это решение, которое объединяет различные инструменты, необходимые специалистам по data science. Такие платформы существенно упрощают их работу, охватывая весь жизненный цикл data science проектов: от идеи и исследования данных до построения и развертывания аналитических моделей. Они позволяют решить так называемую проблему «последней мили»: интегрировать результаты анализа данных в операционную деятельность, чтобы они влияли на принятие решений и трансформировали бизнес-процессы. Это может быть реализовано в виде API предиктивной модели, к которой обращаются другие системы, веб-приложения, которым могут пользоваться сотрудники, или просто ежедневного отчета, отправляемого на почту.

Объяснить, зачем нужны платформы, можно с помощью простой аналогии. Представьте, что на промышленном предприятии конструкторский отдел разработал новый продукт. Принесет ли один опытный образец пользу бизнесу? Нет — прибыль даст только серийное производство. А для этого потребуется не только оборудование, но и регулярные поставки комплектующих, технологические карты, настроенные процессы контроля качества, обслуживания, модернизации продукта. Чтобы поставить производство на поток, нужны дополнительные ресурсы и компетенции.
Аналогичная ситуация возникает и в data science проектах. Ключевой результат работы дата сайентиста — аналитическая модель — это и есть тот самый опытный образец. Она работает, ее можно запустить, показать в действии. Но если сделать только модель, то на бизнес это не повлияет. Чтобы разрабатывать модели и превращать их из пилотных проектов в работающие бизнес-приложения, чтобы модели работали с потоками данных и не «падали», чтобы выдавали результат за разумное время, нужна соответствующая технологическая оснастка — data science платформы.
Такие решения делают работу data science специалистов прозрачной и масштабируемой. Платформы могут использовать и системные интеграторы, и конечные заказчики, у которых есть специалисты по обработке данных и аналитике.
Какие функции есть у платформ анализа больших данных
Каждый data science-проект проходит жизненный цикл, состоящий из трех этапов:

  1. сбор данных и исследование
  2. экспериментирование и разработка модели
  3. развертывание и интеграция.

На каждом этапе специфические задачи, которые помогает выполнять платформа. И есть более общие задачи, включающие управление данными, управление процессами обработки и масштабирования.
Для решения всех этих задач платформы обработки данных предлагают такой технический функционал: прием, подготовка и исследование данных, генерация признаков, создание, обучение, тестирование и деплой моделей, мониторинг и обслуживание системы. Также платформа должна обеспечивать безопасность данных и их хранение, каталогизацию источников, предоставлять инструменты для визуализации и формирования отчетов. Облачные платформы дополнительно дают большой объем хранилища и вычислительных мощностей.
Все перечисленные функции платформ нужны, чтобы:

  • Ускорять работу специалистов.
  • Публиковать модели и интегрировать их в бизнес-процессы.
  • Делиться понятными, читаемыми результатами анализа с сотрудниками всех подразделений.
  • Сохранять прошлые наработки, включая метаданные, код, датасеты и обсуждения, и использовать их в новых проектах.
  • Создать общую базу знаний и собирать лучшие практики, на которых будут учиться новые сотрудники.
  • Безопасно внедрять новые инструменты, не ломая текущие процессы и не вмешиваясь в работу коллег.
  • Масштабировать вычислительные мощности.
  • Контролировать доступы к каждому проекту, чтобы его видели только определенные сотрудники.
Зачем Data Science, если есть системы Business Intelligence
Иногда платформы Data Science воспринимают как аналоги систем Business Intelligence (BI), так как они тоже содержат инструменты для визуализации результатов анализа данных. Важно понимать отличия между ними, чтобы выбирать область применения.

Традиционно BI-решения используются для статических отчетов о текущем или прошлом состоянии бизнеса. Они отвечают на такие вопросы, как: «Какая динамика объема продаж в прошедшем квартале? За счет чего произошел рост или падение продаж? Какой тип продукции произвели больше всего за месяц?». Это так называемый дескриптивный или описательный анализ. Кроме того, BI системы работают со структурированными данными, извлеченными из хранилищ данных и представляют результат анализа в виде интерактивных информационных панелей — дашбордов или отчетов.

Платформы анализа больших данных — это уже инструмент для прогностического и динамического анализа. Они позволяют делать прогнозы по развитию любой сферы бизнеса и на их основе принимать более точные решения. Типовые вопросы: «Какой оптимальный сценарий развития бизнеса? Что будет, если продолжатся текущие тренды? Что случится, если принять новое управленческое решение?”. Платформы могут использовать как структурированные, так и неструктурированные данные из множества источников, и умеют обрабатывать большие данные. Так как предиктивный анализ связан нацелен на прогнозирование какого-то параметра или события, то он фокусируется на конкретной задаче, в отличие от business intelligence. Дескриптивный же анализ должен позволять пользователям гибко создавать отчет в том разрезе, который им потребуется.

Современные BI-системы, например, Tableau или PowerBI, имеют большой набор средства визуализации: от линейных графиков и круговых диаграмм до тепловых карт и диаграмм санкей. Поэтому хотя BI-системы и data science платформы предназначены для разных задач, но они могут дополнять друг друга. Например, существующая BI-система может в удобном виде представить результаты анализа данных, которые поступают из платформы.

Платформы или open source
В некоторых компаниях специалисты по big data по-прежнему работают с open source-инструментами. Дата сайентисты чаще всего учатся на них и продолжают использовать их уже на работе. Это подтверждает исследование Normal Research и агенства New.HR при поддержке портала GeekJOB среди аналитиков, в котором респонденты чаще всего упоминают языки Python, R и соответствующие библиотеки (NumPy, Pandas и другие).

Это объяснимо, ведь у таких инструментов низкий технический порог входа: ими легко пользоваться на личном ноутбуке. Но в реальном бизнесе, когда растет и объем данных, и сложность вычислений, когда нужно обеспечить процессинг и масштабирование, объем сопутствующих работ резко увеличивается.

Эти задачи лежат уже в инженерной плоскости, а не в аналитической. Специалисты сталкиваются с необходимостью «подружить» разные решения, поделиться кодом и моделями с другими сотрудниками, а также с вопросами безопасности. На интеграцию уходит дополнительное время, а зачастую это требует и дополнительных расходов. Поддержка разных инструментов тоже закономерно требует больших усилий, чем единого решения. И даже когда open source-инструменты покрывают потребности в обработке и анализе данных, они не интегрированы с другими сервисами компании — в итоге специалистам сложно встроить ML-модели в существующее ИТ-окружение.

Современные платформы анализа больших данных не заменяют, а дополняют известные дата сайентистам open source-инструменты. Они по-прежнему могут разрабатывать модели с помощью привычных фреймворков и библиотек, а платформы предоставляют необходимый технический функционал для продуктивной работы и реализации полного цикла data science проектов. Такой подход позволяет специалистам не переучиваться и быстрее разрабатывать аналитические продукты для бизнеса.
Когда стоит внедрять платформы для анализа больших данных
Обычно в компании у каждой команды есть инструмент для упорядочивания процессов и совместной работы над задачами. Платформы обработки данных — такой же нужный инструмент для дата сайентистов, как система контроля исходного кода для разработчиков, CRM для отдела продаж и helpdesk для технической поддержки. Например, в небольших компаниях вместо CRM используются excel файлы или облачные kanban сервисы. Разные менеджеры могут использовать разные инструменты. На определенном этапе возникают проблемы: информация не хранится в одном месте, нет единого доступа к ней у руководителей, файлы увеличиваются в объеме, в них долго искать информацию и трудно масштабировать такую систему. Схожие трудности возникают и в data science проектах. Вот признаки того, что вам пора начать использовать платформу анализа больших данных:
Снижение продуктивности
Если вы замечаете, что инструментов становится слишком много, вы тратите много времени на рутинные задачи, а время на обработку данных и обслуживание разных инструментов только растет — вероятнее всего, вам пора переходить на DS-платформу.
Трудности масштабирования
Когда вам необходимо тиражировать разработанное приложение на другие направления бизнеса, или один из этапов обработки данных потребовал больше вычислительных ресурсов, то возникает потребность в масштабировании. Если вам нужно масштабироваться, но вы не очень хорошо представляете, как именно это сделать, то платформа просто необходима.
Прозрачность
Если в команде дата сайентистов начинаются проблемы с коммуникацией, то это говорит об отсутствии централизованных знаний, которыми можно легко делиться между собой. Современные платформы предоставляют доступ разным сотрудникам, вовлеченным в проект.

Рынок data science платформ растет вместе с рынком искусственного интеллекта и углубленной аналитики данных. По оценкам агентства Markets and Markets, рынок платформ для анализа больших данных растет в среднем на 30% в год. Появляются новые продукты, которые разработчики называют «платформами для анализа данных» или «data science platform», и неподготовленному человеку может быть сложно в них разобраться.

Запишитесь на демонстрацию платформы анализа данных от Factory5, чтобы узнать, как извлекать ценность из данных.