Содержание:
При совершении операций с различными организациями банк подвергается кредитному риску. Для эффективного управления риском нужно проводить постоянный мониторинг своих контрагентов, и одним из ключевых элементов мониторинга является анализ новостей. Например, если появилась новость, что компания N терпит убытки и закрывает часть филиалов, банк может своевременно ограничить операции с такой компанией.
Вручную искать и отсматривать все новости невозможно. Просто написать программу, которая соберет инфоповоды, тоже не получится: слишком много исходных и неструктурированных данных, которые надо анализировать и оценивать. Чтобы решить эту задачу, нужна машина, которая будет работать на нейросети. В Газпромбанке такая идея уже реализована и протестирована в рамках системы мониторинга финансовых учреждений (СМФУ). Рассказываем, как ее создавали и каких результатов добились.
Что такое СМФУ и зачем ее придумали
У Газпромбанка много финансовых организаций — контрагентов, с которыми проводятся разные операции. Например, выдача кредитов и размещение средств на счетах. Банку надо понимать, сможет ли компания выполнить свои обязательства по сделке. Важно регулярно мониторить и оценивать контрагентов. Для этого банк внедрил автоматизированную систему мониторинга финансовых учреждений.
Есть два основных инструмента оценки контрагентов: это анализ финансовой отчетности и анализ новостного фона. Сложность заключается в том, что отчеты компании в основном публикуют нечасто: раз в месяц, квартал, полгода или год. Что происходит с контрагентом в период между публикациями отчетности, мы фактически можем судить только по новостям.
Новости помогают отслеживать негативные сигналы на самых ранних стадиях. Например, компания сорвала сделку с партнерами, попала под санкции или потеряла крупного клиента. Есть вероятность, что она не сможет вернуть банку кредит. Тогда банк может вовремя принять меры и ограничить сотрудничество с контрагентом.
Отследить огромный новостной поток вручную невозможно: аналитик легко может пропустить что-то важное. Новость упущена — а это риск потери для банка.
В систему мониторинга финансовых учреждений новости поступают из агрегаторов на разных языках. Внутренняя нейросеть проводит оценку новостей по релевантности и тональности. Когда появляются негативные сигналы, система рассылает уведомления аналитикам для принятия решений.
Возможности специалистов, которые анализируют новости, ограничены рабочим графиком. Невозможно за 8 часов просмотреть сотни публикаций — что-то обязательно упустишь. Кроме того, человек выбирает новости по ключевым словам: «здоровье», «политика», «IT». Нужна была система, которая могла бы оценивать смысл и выхватывать из инфополя только релевантные события.
Какие еще задачи банк ставил перед системой:
- Быстро фильтровать новостной поток и оставлять только ту информацию, которая нужна для оценки надежности компании.
- Ранжировать новости по тональности: делить их на негативные, позитивные или нейтральные.
- Помогать сотрудникам банка принимать решения по контрагентам в несколько раз быстрее.
- Давать информацию, на основе которой можно делать актуальный вывод по рискам.
Так пришли к разработке функции анализа новостей на базе СМФУ. Система автоматически мониторит новости по учреждениям, которые выступают контрагентами Газпромбанка. Результат ее работы — ежедневная подборка из 10 инфоповодов, а не бесконечный новостной поток агрегаторов, который раньше видели аналитики. Система позволила значительно уменьшить кредитные риски и сэкономить время специалистов, и не только.
Как работает анализ новостей в СМФУ
Анализ новостей в системе мониторинга финансовых учреждений запустили в 2020 году. Для разработки требовалось много технических и человеческих ресурсов. Но идея полностью себя оправдала и помогла добиться таких результатов:
- Уменьшили кредитные риски по операциями с контрагентами.
- Сократили время аналитиков на анализ новостей.
- Снизили количество ошибок — точность нейросети составляет 90%.
- Повысили качество мониторинга. Аналитики получают только самые важные новости — это около 2% от всех инфоповодов за день.
- Снизили влияние человеческого фактора, из-за которого можно пропустить важную новость.
Система мониторинга финансовыми учреждениями дает возможность масштабировать бизнес и работать с контрагентами с любым уровнем рисков. В реальном времени мы можем понять, какие проблемы есть у компании сегодня, и быстро принять решение. За счет этого существует возможность зарабатывать в более рискованных сегментах.
Каждый день модель обрабатывает больше 3 000 новостей на русском и английском языках по каждому контрагенту. Они поступают из агрегатора, который собирает инфоповоды из 2 млн источников по всему миру. Дальше начинает работать нейросеть BERT:
- Модель релевантных новостей online-offline отбирает значимые новости, которые нужны для оценки финансовых рисков.
- Модель тональности отмечает каждую новость как негативную, позитивную или нейтральную.
- В результате за день получается подборка из примерно 10 значимых новостей, которую и оценивают аналитики.
Нейросеть постоянно работает на графических процессорах (GPU). Это позволяет быстро получать информацию по компаниям. Даже когда аналитик не смотрит в систему, СМФУ отлавливает негативные сигналы и отправляет уведомления о них специалистам.
Как обучали нейросеть
Было несколько вариантов, на чём построить работу по анализу новостей в СМФУ. Это разработка на регулярных правилах поиска ключевых слов, вендорских решениях и нейросети.
Читать текст — сложная задача. Чтобы понимать, позитивная перед нами новость или нет, важно учитывать не отдельные слова, а смысл предложений в целом. Одними и теми же фразами можно передать разный смысл. То есть нужно учесть много нюансов, чтобы определить тональность. С помощью регулярных правил это сделать сложно. Можно написать программу, которая будет отбирать новости по определенным словам, но нужного результата добиться не получится. Хотя в начале разработки регулярные правила мы использовали.
Обучение нейросети шло на данных, которые передали аналитики Газпромбанка. Они показали, какие новости считают важными, позитивными и негативными, по каким словам и выражениям оценивают информацию. Это называется разметкой данных.
На первом этапе было около 100 размеченных новостей. Разметки оказалось мало, поэтому качество модели было низким: нейросеть выдавала инфоповоды, которые нельзя было использовать для оценки рисков.
Чтобы отсеять нерелевантные новости, команда использовала регулярные правила и применила их на большом объеме данных. Так удалось отобрать массив инфоповодов, которые были неважны. На этом размеченном массиве нейросеть продолжила обучаться, и качество модели выросло больше чем в два раза. Раньше она выдавала около 40% релевантных новостей, после — 85–90%.
Разработка системы на основе нейросети строилась в несколько подходов:
- Сначала использовали модель Word2Vec. Она переводит слова в векторы, которые нужны, чтобы оцифровать данные, поскольку нейросеть работает с цифрами, а не с текстом. Слова с одинаковыми векторами уже можно объединять в группы и строить языковые модели.
- Далее обучалась рекуррентная нейронная сеть. Она моделировала данные в последовательность, то есть составляла из слов предложения, которые нужны для дальнейшего анализа. Эта нейросеть помогла повысить качество оценки новостей до 80%.
- Затем взяли более тяжелую нейросеть BERT от Google. С ней качество модели повысилось еще на 10%. BERT устроила команду по результатам и легкости: она требует меньше ресурсов по сравнению со многими другими сетями.
Команда разработки оказалась первопроходцем в плане внедрения таких сложных систем. До этого в банке моделей с подобными параметрами не было. Поэтому пришлось создать новую инфраструктуру, подключать подразделения, которые раньше не работали с такими моделями.
Что дальше
Модель уже обработала большой объем данных. Опираясь на них, аналитики дают рекомендации и говорят, в каких моментах систему надо скорректировать. Обратную связь планируют использовать для развития нейросети и в будущем переобучать ее в автоматическом режиме, чтобы повысить точность модели.
Еще команда планирует сделать нейросеть, которая будет определять триггерные новости. Например, триггером может быть «ЦБ отозвал лицензию у московского банка». Важно быстро отбирать такие новости, чтобы минимизировать риски работы с контрагентами.
Многие контрагенты Газпромбанка находятся за рубежом. Поэтому в планах развивать мониторинг страновых рисков. Это ситуации, когда государства, например, ограничивают лимиты по переводам иностранным партнерам. Также планируется строить отдельные нейросети, которые будут оценивать релевантность и тональность новостей в других странах.
Сейчас нейросеть позволяет сократить вероятность потерь по контрагентам на горизонте одного года приблизительно на 90 млн ₽. С учетом ее дальнейшего развития, например триггерных новостей, потенциал модели может вырасти до 150 млн ₽.