Нейросеть (классификация) для кредитного скоринга

0 голосов
Александр Белоус в категории Как сделать...

Добрый вечер!

Начинаю работу по реализации кредитного скоринга на нейросети.

Сразу столкнулся с рядом вопросов, на которые не могу найти однозначные ответы:

1. Нужно ли первичные данные сгруппировывать по классам (конечные классы)? Опытным путем выяснено, что без квантования доля предсказанных дефолтов минимальна (если вообще есть). Но обучение нейросети всегда представлялось как возможность использовать "сырые данные" без их предварительного квантования и ручного исключения незначимых признаков.

2. Сильная просадка качества модели на тестовой выборке.

Оценка качества реализована через матрицу ошибок.

Разделение на обуч./тестовую выборки: узел сэмплинг и соотношение 70/30; 80/20.

После обучения тестовая выборка подается на продублированный обученный узел "Нейросеть (классификация)" (искомое поле "дефолт" - пустое).

Игра со слоями и количеством нейронов фактически не влияет на тестовые предсказания.

Регуляризация также не дает результатов.

Максимальная ошибка идет именно на предсказании редкого события (дефолт) (разница между обучением и тестом 3/4 раза).

Исходная выборка предобработана.

Куда смотреть?

Спасибо!

Ответ: 1 шт.

0 голосов
Кирилл М.
Здравствуйте!

Однозначно ответить на текущий вопрос трудно, т. к. всё зависит от того, какие имеются исходные данные. Однако есть общие рекомендации.

Предварительная обработка данных является одним из основных шагов в машинном обучении, и Нейросеть (классификация) здесь не является исключением. Какие при этом использовать методы и инструменты, зависит от исходных данных. От того, как вы подготовите данные, напрямую будут зависеть полученные результаты.

В Loginom при использовании моделей машинного обучения разбиение на обучающую и тестовую выборку — это часть алгоритма работы узла. В вашем случае для разбиения данных на обучающее и тестовое множество необходимо указать соответствующие параметры в настройках узла Нейросеть (классификация). Также рекомендуется задать один из вариантов валидации (см. документацию) — https://help.loginom.ru/userguide/processors/datamining/neural-network-classification.html. Если изменение параметров нейросети в настройках узла не влияет на конечный результат, то, возможно, имеется недостаточно большой исходный набор данных.

Для лучшего понимания работы нашего компонента, его работы, особенностей и дополнительных возможностей предлагаем изучить справку — https://help.loginom.ru/userguide/processors/datamining/neural-network-classification.html. Для решения задач кредитного скоринга вам могут пригодиться библиотеки с готовыми компонентами по работе с кредитным скорингом (карточки помечены как «Credit Scoring») — https://marketplace.loginom.ru/libraries/  Также рекомендуем посетить наш сайт Loginom Skills — https://skills.loginom.ru/ где имеются курсы по скорингу.
...