22/07/2022

Профессия дата-инженер: возникновение, специфика в банке, инструменты и навыки

Потребность в профессии дата-инженера росла вместе с тем, как в крупных компаниях накапливались данные о пользователях. Информацию нужно было собирать, обрабатывать и структурировать, прежде чем приступать к анализу и поиску инсайтов.

Вместе с начальником Управления Алексеем Смирновым и управляющим директором Департамента Андреем Александровым рассказываем, как формировались роли в дата-командах, в чем проявляется банковская специфика профессии и какими инструментами должны владеть дата-инженеры, чтобы претендовать на разные грейды в Газпромбанке.

Как появилась профессия дата-инженера

Когда специализации дата-инженера не существовало, всю работу с данными от поиска источников до разработки витрин выполняли аналитики. Затем они же анализировали и визуализировали данные, готовили отчеты и презентовали их руководству. Даже если специалист концентрировался, например, на технической составляющей работы, его должность называлась «аналитик».

После 2010-х годов у крупных корпораций появилась потребность уделять больше внимания знаниям о пользователях и поиску инсайтов — это напрямую влияло на их доходы. Поэтому на каждом этапе работы с данными появлялись новые инструменты, подходы, развивался технологический стек. Один человек уже не мог поддерживать на должном уровне навыки во всех областях, поэтому универсальная профессия аналитика данных стала дробиться на отдельные специализации. Так профессия дата-инженера выделилась в отдельное направление.

Чем занимаются дата-инженеры

Чем крупнее организация и чем больше данных она хранит, тем более узкие специалисты ей требуются. Классическое распределение ролей в большинстве компаний на текущий момент такое:

  • дата-инженер концентрируется на первичной работе с данными и организует процессы по их подготовке (ETL);
  • дата-сайентист строит аналитические модели для решения бизнес-задач с использованием больших данных;
  • дата-аналитик исследует данные, строит гипотезы, вычисляет важные для бизнеса метрики и визуализирует их на дашбордах.

Хотя функции специалистов разделены, дата-инженеру нужно понимать бизнес-смысл данных: каждая витрина должна верно отражать реальную ситуацию. Для более глубокого погружения в предметную область дата-инженеры работают в проектных командах Газпромбанка. Они хорошо понимают бизнес-логику процессов и могут помочь аналитикам в поиске инсайтов, вносят предложения внутри команды. При этом их основные задачи остаются техническими.

В банковской сфере дата-инженеры работают с данными из автоматизированных систем (АС) и внешних источников. Например, витрины данных содержат обезличенную информацию о действиях пользователей в мобильном и интернет-банке, на сайте, о заявках по кредитам, транзакциях.

Дата-инженер действует поэтапно:

  • ищет источники данных;
  • придумывает и программирует pipeline («трубопровод», пайплайн) — конвейерную последовательность обработки данных от источника до конечной витрины и их загрузки в хранилище;
  • контролирует работу пайплайнов и качество данных.

Чтобы создать новую витрину данных, дата-инженеру нужно получить техническое задание и бизнес-требования от моделиста или бизнес-заказчика. Когда дата-инженер понимает, что от него требуется и какие данные должны быть в витрине, он начинает действовать по алгоритму ниже.

Алгоритм работы дата-инженера в Газпромбанке

Дата-инженер постоянно контролирует витрины, которые он создал, с помощью специальных инструментов мониторинга. Специалист отвечает за то, что данные из источника доходят до пользователей без потерь, сохраняют полноту и качество.

Инструменты и навыки дата-инженера

Язык структурированных запросов SQL и навыки разработки на любом языке программирования — база для дата-инженера, с которой можно делать первые шаги в профессии.

Алексей Смирнов

Начальник Управления.

Если человек понимает основные принципы разработки, знает, как работают логические условия, алгоритмы и структуры данных, умеет писать запросы, чтобы получить данные из источника, — он может претендовать на начальные позиции дата-инженера.

Дата-инженер среднего уровня должен отлично знать SQL и программировать на языке Python или Scala. Часто требуется владение инструментом Spark для высоконагруженных расчетов. Дата-инженер на этом этапе развития должен понимать, как правильно подобрать стек технологий и выстроить пайплайны подготовки данных в конкретной задаче. Например, если нужно организовать регулярный процесс с высокой производительностью, то оптимальный стек — Spark + Scala. Если процесс не высоконагруженный, то пайплайн можно спроектировать на связке SQL + Spark.

Опытный дата-инженер владеет теми же навыками, но на более высоком уровне, разбирается в деталях алгоритмов для решения конкретных задач.

В стеке технологий Газпромбанка используется Data Lake на базе Hadoop, фреймворк Impala для работы с витринами данных и языком SQL, инструмент потоковой подготовки и доставки данных Kafka.

Как стать дата-инженером

Профессию дата-инженера сложно освоить с нуля. Минимальные навыки работы с кодом, понимание процессов и умение видеть взаимосвязи в данных можно наработать только на практике. Поэтому чаще всего дата-инженерами становятся люди, у которых уже есть бэкграунд в разработке.

Алексей Смирнов

Начальник Управления.

Я начал программировать еще в школе. Писал сайты на PHP и уже после этого начал работать с витринами данных. Сам по себе PHP не дал никаких преимуществ — он не используется в работе дата-инженера. Но опыт разработки помог быстрее освоиться в профессии.

Дата-инженер должен быть готов каждый день читать статьи и обзоры по профессии, изучать новые технологии. Область развивается с огромной скоростью: то, что 5 лет назад было основой работы, уже устарело. Поэтому нужно постоянно инвестировать в себя через обучение, обсуждения, митапы — всё это помогает не отставать от коллег.

Кроме навыков программирования, дата-инженеру нужно умение фокусироваться на задаче. Если его нет, будет сложно продумать взаимосвязи таблиц данных, понять, как нужно преобразовать информацию, чтобы получить из нее инсайты. Когда постоянно отвлекаешься, удержать в голове эти связи сложно, поэтому рассеянные и невнимательные люди обычно не становятся дата-инженерами.

Андрей Александров

Управляющий директор Департамента.

Хотя профессия техническая, дата-инженеру не обойтись без креативности. Невозможно взять новые данные и обработать их точно так же, как какие-то другие. Нужно найти правильный метод для одной части информации, потом для другой, затем как-то их соединить, учесть специфику предметной области и ограничения. Каждая новая задача требует новых идей и подходов.

Сейчас в команде анализа данных и моделирования Газпромбанка работает около 30 дата-инженеров, но постоянно открываются новые позиции и проекты. В команды, где уже есть специалисты с опытом в предметной области, банк старается привлекать молодых дата-инженеров. Под руководством наставника они смогут решать сложные задачи и набираться опыта. Если хотите стать частью нашей команды, переходите в раздел вакансий — ждем ваших откликов.
0%

Банк ГПБ (АО) использует файлы cookie. Подробная информация –
в правилах по обработке персональных данных. Вы можете запретить сохранение cookie в настройках своего браузера.