31/03/2023

ЕСЦ 2.0: что нового в «службе спасения» Газпромбанка

В любой компании со сложным IT-ландшафтом иногда случаются сбои, которые приводят к простою в работе сервисов, финансовым и репутационным потерям. Чтобы исправить или предотвратить нештатные ситуации, в Газпромбанке действует Единый ситуационный центр (ЕСЦ). Весной 2022 года в его работе произошли изменения: открыли помещение Ситуационного центра IT для очной работы дежурных, запустили новую систему мониторинга и создали Управление, чтобы централизовать дежурные смены.

Андрей Уланов, руководитель, курирующий ЕСЦ из Департамента прикладного сопровождения IT, и его заместитель Анатолий Базилевский рассказывают, что изменилось в работе центра и зачем понадобились глобальные перемены.

Почему ЕСЦ требовал обновления

Единый ситуационный центр запустили в 2020 году. В составе ЕСЦ дежурные разных подразделений банка сообщали друг другу о нештатных ситуациях, сбоях в банковских системах и синхронизировали действия для их устранения. В работах принимали участие ИТ, ИБ, операционный блок и административно-технический сервис. 

На тот момент у дежурных ЕСЦ не было централизованного мониторинга банковских сервисов и систем, поэтому сформировать целостную картину сбоя порой было затруднительно. Если возникала нештатная ситуация, информацию о ней и ходе ее устранения публиковали в чате ЕСЦ. При необходимости сообщение дублировали почтовой рассылкой или новостью на внутренних порталах банка. 

Во время пандемии центр перешел на удаленный режим работы, и роль чата в обмене информацией резко возросла. Когда количество участников перевалило за 400 человек, в нем стало трудно ориентироваться. Ежедневно приходило несколько сотен сообщений по разным сбоям. Обсуждения проблем смешивались, отслеживать ответы на обращения было неудобно, а часть важных данных могла затеряться в общей массе сообщений.

Что изменилось

Изменения в работе ЕСЦ должны были решить проблему коммуникации между разными подразделениями банка. Чтобы запустить новые процессы, собрали обратную связь от всех участников: бизнес-заказчиков, руководства банка, value stream, администраторов банковских систем. Изменения в работе ЕСЦ строились на их пожелания и отзывах, а также собственном опыте экспертов.

Большие сложности вызывало то, что работу ЕСЦ нельзя прерывать. От эффективности работы центра зависит, насколько быстро специалисты обнаружат сбой в банковской системе и устранят его. 

Команде ЕСЦ совместно с коллегами из Центра развития ИТ-мониторинга удалось плавно трансформировать процессы и внедрить удобные инструменты и дашборды. Для этого потребовалось растянуть во времени переходный период: новые механизмы запускали параллельно с прежними, частично дублируя их. 

Когда новые процессы начали работать стабильно, предсказуемо и в соответствии с ожиданиями команды, старые полностью отключали. Это дало дополнительную нагрузку на сотрудников, но позволило обновить ЕСЦ с минимальными рисками и с полным контролем за происходящим.

Андрей Уланов

Начальник Управления ЦДС

Ключевая функция дежурных в обновленном Ситуационном центре — координация подразделений банка, которые ищут корневую причину сбоя и устраняют нештатную ситуацию. Дежурные помогают экспертам поддерживать связь и обеспечивают их всей актуальной информацией, чтобы как можно быстрее вернуть системы к нормальной работе. Чтобы ЕСЦ работал с максимальной эффективностью, мы также добавили функцию мониторинга систем непосредственно дежурными центра. Для этого в Департаменте прикладного сопровождения ИТ сформировали новое Управление централизованных дежурных смен.

Дежурные круглосуточно контролируют состояние критических систем и сервисов банка с помощью единой системы сквозного мониторинга. Благодаря ей сотрудники центра могут вовремя заметить отклонения в работе сервисов и предупредить администраторов систем и пользователей банка. 

Срабатывание критически важных проверок и генерация событий мониторинга могут быть признаком близкого сбоя или следствием уже случившегося. В первом случае инцидент можно предотвратить, а во втором — снизить его влияние: сократить время простоя систем и быстрее восстановить их работоспособность. 

Данные для системы собирают программы-агенты, установленные на серверах банковских систем. Например, есть отдельные агенты, которые отслеживают свободное место на сервере, отключения и перезагрузки, ошибки чтения или записи данных. Информация визуализируется с помощью дашбордов.

Читайте также: Как в Газпромбанке мониторят работу сервисов онлайн

Важным изменением стал перевод централизованной дежурной смены (ЦДС) в очный режим работы. Теперь дежурные работают в специально оборудованном офисе с видеостеной, на которую выводятся данные единой системы мониторинга. Это ядро центра, в котором сосредоточена вся информация о возникающих сбоях в банковских системах и сервисах. 
Кроме технической информации от системы мониторинга, дежурные получают данные из других источников: от администраторов и пользователей систем, внешних поставщиков услуг и клиентов банка. Например, операторы контакт-центра и сотрудники Службы поддержки могут передать сообщение о сбое, если пользователи массово жалуются на одну и ту же ошибку в банковском приложении или системе.
Второе важное нововведение — новый Telegram-канал ЕСЦ для обсуждения проблем вместо прежнего чата. Каждый пост в канале посвящен отдельной теме, комментарии к нему оставляют только те специалисты и дежурные, которые заняты решением конкретной проблемы. Причем в тексте самого поста всегда указывается актуальный статус: критичность и влияние инцидента, ответственный за устранение и прогнозируемый срок восстановления работоспособности. Всё это помогает структурировать информацию и сделать процесс прозрачнее.

В рабочие дни с информацией из каждого поста знакомится более 500 человек. В дни пиковых нагрузок общее количество просмотров достигает 14 тысяч. 

Как работает обновленный ЕСЦ

Работа дежурного в ситуационном центре строго регламентирована. Если в одной из систем случается нештатная ситуация или хотя бы риск ее возникновения, сотрудник ЦДС сразу получает оповещение о ней. Это может быть сообщение от системы мониторинга, информация в чате, по телефону или e-mail.

Анатолий Базилевский

Заместитель начальника Управления ЦДС

Важнейшая часть работы дежурного — первичный анализ ситуации. Зачастую в сообщении о сбое говорится о какой-то локальной проблеме. Дежурному нужно понять, что именно может быть ее корневой причиной и может ли эта же причина повлиять на работу других систем.

Допустим, пользователи мобильного приложения не могут посмотреть остатки по счетам. Чтобы найти корневую причину проблемы, дежурный собирает всю доступную информацию в единую картину: связывается с сотрудниками разных подразделений — администраторами банковских систем. 

Кроме того, дежурный использует данные дашбордов, чтобы найти причину ошибок. Бывает, что корневая причина находится в другой системе, напрямую не связанной со сбоем.

Дальнейшие действия дежурного зависят от того, удалось ли локализовать проблему и определить ее причины. Если ошибка возникла в конкретной банковской системе, дежурный сообщает о ней ответственным сотрудникам. Затем отслеживает и координирует работы по устранению сбоя и его последствий.

Если сбой вызван глобальными сетевыми неполадками или, к примеру, DDoS-атакой на сервера банка, то дежурный должен уведомить об инциденте руководителей направлений, а при необходимости и руководство банка. В таких серьезных случаях обсуждение проблемы может длиться несколько часов, поэтому для большего удобства и скорости взаимодействия в дополнение к Telegram-каналу используется видео-конференц-связь. 

Схема работы ЕСЦ

Всё время от первого сообщения о сбое до полного устранения проблемы, ее причины и последствий, дежурный ЦДС остается на связи с ответственными сотрудниками банка: привлекает дополнительных сотрудников, уточняет статус сбоя и информирует пользователей и руководство банка. Благодаря этому у работников ЕСЦ всегда есть актуальная информация о состоянии систем и сервисов. 

Результаты работы ЕСЦ после трансформации (с июня 2022 года)

Что будет дальше

Единый ситуационный центр постоянно развивается: к системе мониторинга подключается больше серверов и автоматизированных банковских систем. Одновременно разрабатываются новые дашборды и инструменты для дежурных ЦДС. 

Одна из важных задач специалистов ЕСЦ — автоматизация части рутинных процессов. Например, отправка приглашений экспертам на групповой звонок, если возникнут типовые значительные инциденты. Такие ситуации требуют обязательного участия в видео-конференц-связи определенных работников. Планируется, что текст приглашения озвучит цифровой генератор речи.

Автоматизация коснется и оповещения сотрудников о нештатных ситуациях и значительных инцидентах. Пока сообщения публикуются в Telegram, почтовую рассылку и на порталы банка отдельно. В будущем появится более удобный и совершенный механизм, который позволит передавать информацию о сбоях по всем требуемым каналам сразу. 

Также есть и другие планы по автоматизации и оптимизации работы ЕСЦ. Отдельное направление связано с формированием отчетности, потому что она важна для последующего анализа работы центра. С помощью отчетов эксперты понимают, соответствуют ли текущие результаты запланированным, и ищут способы их улучшения.

0%

Банк ГПБ (АО) использует файлы cookie. Подробная информация –
в правилах по обработке персональных данных. Вы можете запретить сохранение cookie в настройках своего браузера.