Добрый день! Вопрос практической направленности по работе скоринга

0 голосов
Александр Белоус в категории Ошибки

Рабочая скоринговая модель строилась на массиве данных 01.2016-06.2018. При проведение первого планового мониторинга столкнулись с проблемой выборки правильного окна данных для прогона через действующие скоры:

  1. Брать данные, на которых строилась модель и дополнительно обогащать их новыми данными;
  2. Брать только новые данные, которые не участвовали в построении модели;
  3. Использовать данные на основе исходной для построения выборки, но смещенные на год (01.2017-06.2019). 

Модель банковского розничного скоринга.

Ответ: 1 шт.

0 голосов
Барковская Маргарита
Добрый день! Данные необходимо подавать "как есть", т.е. без смещения по годам.

Правильнее всего перестроить саму модель на новых данных, т.к. скорее всего профиль клиентов поменялся за текущее время. Это желательно делать, как можно чаще (раз в квартал, если возможно, или раз в полгода/год).

Мониторинг обычно сводится к PSI CSI - в выборке участвуют старые и новые данные - их статистики сравниваются, насколько сильны между ними изменения (т.е. требуется перестройка модели или нет). Подробнее можно прочесть в статье - https://wiki.loginom.ru/articles/stability-index.html
Александр Белоус
Маргарита, спасибо большое за ответ! Уточню: "как есть" - это только новые данные или все же старые + новые? Тут вопрос оценки именно точности предсказания (чувств./спец.)
Барковская Маргарита
Если Вы хотите оценить, на каких данных модель будет точнее, то Вам нужно прогнать выбранные наборы данных (новые, новые+старые, по старым точность Вы уже знаете) и сравнить точность. Если точность модели примерно такая же на новых данных, то используете их.
...