23-05-2020 14:46

От хранения до аналитики: принцип «одного окна» в работе с данными

От хранения до аналитики: принцип «одного окна» в работе с данными

Компании собирают все больше как структурированных, так и неструктурированных больших данных. Однако не все BI-инструменты могут работать с Big Data, а традиционные хранилища не справляются с миллиардами записей – в результате бизнес вынужден использовать несколько решений для работы с данными и тратить большие ресурсы на их интеграцию. А возможно ли вести всю работу с данными, используя лишь одну платформу?

Samsung представляет МФУ CLX-3185W с Wi-FiВам будет интересно:Samsung представляет МФУ CLX-3185W с Wi-Fi

Что не так в традиционном подходе к работе с данными?

За последние годы отношение компаний к своим данным сильно изменилось. Если раньше информация о внутренних процессах, сделках и продуктах просто собиралась и нередко так и не использовалась, то теперь данные справедливо считаются одним из важнейших активов бизнеса. Их анализ помогает получить полную и достоверную информацию о ситуации в компании и на рынке, увидеть свои слабые и сильные стороны, оптимизировать расходы и получить множество других полезных инсайтов.

Mail.ru все-таки решила открыть продажу КапсулыВам будет интересно:Mail.ru все-таки решила открыть продажу Капсулы

Очень часто нашим клиентам приходится использовать несколько разных инструментов для сбора, хранения и анализа своих данных. Во-первых, из-за многообразия самих данных. В распоряжение аналитиков могут поступать структурированные, слабоструктурированные и неструктурированные данные: для работы с одними предпочтительнее выстроить корпоративное хранилище (DWH), а другие гораздо удобнее разместить в Data Lake. В случае с анализом тоже зачастую недостаточно традиционных BI-систем: все чаще случаются ситуации, когда бизнес накапливает так много данных, особенно неструктурированных, что возможностей этих решений не хватает для их обработки.

Во-вторых, в области Data Science появились новые роли, отличные от стандартного BI-аналитика. Этим специалистам недостаточно Excel, запросов к базе данных и простой визуализации. ML-инженерам нужны платформы для реализации сложных потоков данных, а специалистам Data Science – средства для построения моделей корпоративного уровня.

В итоге компании сталкиваются со сложной задачей – внедрить инструменты, которые позволят задействовать все необходимые для развития бизнеса данные, и настроить интеграцию между ними, чтобы все работало без сбоев. Это длительный и дорогостоящий процесс даже для крупного бизнеса. Поэтому на рынке появляется новый тип продукта для работы с данными – корпоративное облачное решение полного цикла, которое можно быстро и без больших усилий развернуть внутри контура компании. Его главным преимуществом становится возможность для бизнеса закрыть весь pipeline работы с данными с помощью одной платформы. Одним из наиболее полных решений подобного класса является Azure Synapse Analytics.

img

С какими задачами точно в облака?

Решение полного цикла не только закрывает большинство потребностей современного бизнеса в части получения выгод от своих данных, но и позволяет компаниям решить проблемы, часто возникавшие при работе с несколькими продуктами.

1. Объединение данных из всех источников

Сведение информации из разрозненных систем – ресурсоемкий процесс. Многие наши клиенты сталкиваются с тем, что, собрав структурированные данные в корпоративном хранилище, а неструктурированные – в Data Lake, одновременно использовать их для анализа трудно. Используя решение полного цикла, можно настроить централизованное управление всеми источниками данных. Например, в Azure Synapse Analytics есть готовые ETL-инструменты для загрузки и преобразования данных, а также встроенные коннекторы к большому количеству разнообразных on-premise- и cloud-based-источников.

2. Обработка больших объемов данных и выбор собственного механизма их анализа

Миллиарды записей раньше становились серьезным испытанием для традиционных BI-систем. Возможности для масштабирования on-premise-решений зачастую сильно ограничены из-за уже произведенных существенных вложений в инфраструктуру решения. Облачная платформа полного цикла может гибко подстраиваться под необходимые параметры мощности. Один из наших retail-клиентов столкнулся с тем, что его локальная BI-система работала на пределе возможностей, а выполнения запросов приходилось ждать по несколько минут. После перехода к корпоративному облачному решению удалось значительно увеличить скорость выполнения запросов (до нескольких секунд) и существенно повысить уровень доступности данных для пользователей.

Кроме того, новые платформы позволяют использовать наиболее подходящие под конкретную задачу инструменты анализа данных. Например, в случае с Azure Synapse Analytics компания может использовать как привычные инструменты вроде аналитических моделей и отчетов в Power BI, так и инструменты продвинутой аналитики вроде Azure Machine Learning или Databricks.

3. Гибкое масштабирование

Не каждому бизнесу нужны большие мощности для анализа данных, однако это может измениться со временем, когда компания вырастет. Поэтому в облачных решениях для работы с данными предусмотрена возможность гибкого масштабирования. На старте проекта можно использовать ограниченный объем вычислительных мощностей и затем наращивать его по мере необходимости.

На одном из проектов мы столкнулись с невозможностью глобального провайдера инфраструктуры быстро нарастить мощности. Например, перевод BI-железа со стандартных жестких дисков на быстрые SSD занял почти год. Если бы для проекта использовалась PaaS-архитектура, таких проблем удалось бы избежать.

4. Developer-friendly

Создать хранилище данных или pipeline их обработки в решении вроде Azure Synapse Analytics довольно просто, а единая среда и простой интерфейс упрощают внедрение. Это важно для компаний, не располагающих большими ресурсами на разработку и поддержку BI-платформы.

5. Снижение расходов на капитальные вложения в технику и лицензии

Эта задача особенно актуальна сейчас, в период повышенной неопределенности. Многие компании заморозили бюджеты на CAPEX. Использование облачных решений позволяет перевести затраты в разряд операционных, при этом для старта проекта не требуется проводить закупки аппаратуры или лицензий на ПО. В результате бизнес может не останавливать проекты развития и продолжать извлекать ценные инсайты из своих данных. В случае Azure Synapse Analytics компания оплачивает только реально потребленные мощности, объем которых можно гибко регулировать. Если какие-то сервисы не нужны или долго не используются – их можно отключить или остановить.

Data science, Бизнес-аналитика (BI)

Журнал: Журнал IT-Expert, Подписка на журналы

Поделиться: