Почему в логистической регрессии выдаёт нулевые значения?

0 голосов
Marko в категории Ошибки

Доброго времени суток! Буду очень благодарен, если поможете решить проблему. Опишу свой сценарий полностью, потому что не знаю, в чем конкретно может быть проблема.

Имеется следующий сценарий, направленный на построение скорринговой карты:

В таблице Excel расположены данные по регионам. Все пропуски заполнены через соответствующий компонент. С помощью калькулятора "преобразовал" один из показателей в логический тип для использования компонента "Конечные классы". Через "Параметры полей" убрал всё лишнее и оставил только данные, полученные из предыдущего компонента. 

В логистической регрессии все параметры по умолчанию кроме: 

1. Обучающее и тестовое множество: 80/20 соответственно

2. Отбор факторов и защита от переобучения: Enter - принудительное включение 

Качество бинарной классификации: Показывает высокое значение, но иногда, при переобучении, AUC ROC достигает 1 (То есть, "идеальная модель", что свидетельствует о какой-то ошибке, как я понял).

Ну и неутешительный отчёт по логистической регрессии, где куча нулевых значений (ровно по одному у каждого показателя):

Если я правильно понимаю, то нулевые значения в данном случае свидетельствуют об ошибке. 

Я копался в интернете в поисках решения, все пишут, что дело в данных. Данные я проверял, всячески пробовал. Пустых значений нет, все показатели вещественные. 

Ответ: 1 шт.

0 голосов
nikolay.paklin
Добрый день.

Никакой ошибки нет - ведь нулевые, это опорные категории в уравнении регрессии, где коэффициент при независимой переменной равен 0. Рекомендуем ознакомиться с основами регрессионного анализа, фиктивными переменными (дамми переменными).

Пропуски заполнять отдельно не требуется. Конечные классы хорошо решают задачу заполнения пропусков, воспринимая ее как отдельную категорию, которая будет присоединена к какому-то бину (конечному классу).
...