Как используются разбиение на множества и метод валидации при построении моделей линейной и логистической регрессии?

0 голосов
postlogist в категории Алгоритмы
Поясните, пожалуйста, как взаимодействуют между собой и как используются метод разбиения и метод валидации при построении регрессионных моделей.

Обычно в инструментах мы либо сами делим данные на обучающее и тестовое множество, строим модель на обучающем и считаем ошибки на тестовом. Либо есть какие-то возможности сделать сэмплинг, построение выбранной модели и оценку ошибки автоматически.

В Loginom для чего-то присутствует как разделение на обучающее и тестовое множество, так и отдельно метод валидации, где опять можно выбрать метод сэмплинга, причем можно снова задать число колод кросс-валидации или % разбиение.

Как именно в Loginom выполняются разбиение и валидация и как это потом используется при построении модели и оценке ее качества?

На каком множестве подсчитываются результаты, которые выводятся в отчетах по регрессии и по качеству классификации? Например, при кросс-валидации получается k прогнозов, и обычно по ним выводятся агрегированные показатели, а в ROC диаграммах можно видеть средние и доверительные интервалы. Что выводится в Loginom?

Если включена кросс-валидация или разбиение на множества, то какая модель будет использоваться при использовании узла для прогнозирования: построенная на всех данных, построенная только на обучающем множестве, или одна из моделей, построенных в ходе кросс-валидации?

Ответ: 1 шт.

+1 голос
rudakov
 
Лучший ответ

В визуализаторе "Отчет по регрессии" выводятся результаты на обучающем множестве - https://help.loginom.ru/userguide/visualization/regression/ .

В визуализаторе "Качество бинарной классификации" выводятся результаты и по обучающему и по тестовому множествам - https://help.loginom.ru/userguide/visualization/binary-classification/.

Кросс-валидация используется при обучении модели для автоматического подбора коэффициентов регуляризации (автоматического выбора модели) в режиме автоматической настройки по шкале Точность — Скорость https://help.loginom.ru/userguide/processors/datamining/logistic-regression/#nastroyka-logisticheskoy-regressii.
Кросс-валидация выполняется на обучающем множестве.

Показатели для тестового множества и кросс-валидации выводятся в выходной порт "Сводка Логистической регрессии" https://help.loginom.ru/userguide/processors/datamining/logistic-regression/#nastroyka-logisticheskoy-regressii.
В визуализаторе "Качестве бинарной классификации" рассчитываются графики и показатели на обучающем и тестовом множествах.

Разбиение на обучающее и тестовое множество имеет смысл только для обучения узла. А после этого, через обученную модель прогоняются уже все подаваемые данные без разбиения на обучающее и тестовое множества.

...