Добрый вечер!
Начинаю работу по реализации кредитного скоринга на нейросети.
Сразу столкнулся с рядом вопросов, на которые не могу найти однозначные ответы:
1. Нужно ли первичные данные сгруппировывать по классам (конечные классы)? Опытным путем выяснено, что без квантования доля предсказанных дефолтов минимальна (если вообще есть). Но обучение нейросети всегда представлялось как возможность использовать "сырые данные" без их предварительного квантования и ручного исключения незначимых признаков.
2. Сильная просадка качества модели на тестовой выборке.
Оценка качества реализована через матрицу ошибок.
Разделение на обуч./тестовую выборки: узел сэмплинг и соотношение 70/30; 80/20.
После обучения тестовая выборка подается на продублированный обученный узел "Нейросеть (классификация)" (искомое поле "дефолт" - пустое).
Игра со слоями и количеством нейронов фактически не влияет на тестовые предсказания.
Регуляризация также не дает результатов.
Максимальная ошибка идет именно на предсказании редкого события (дефолт) (разница между обучением и тестом 3/4 раза).
Исходная выборка предобработана.
Куда смотреть?
Спасибо!