Поясните, пожалуйста, как взаимодействуют между собой и как используются метод разбиения и метод валидации при построении регрессионных моделей.
Обычно в инструментах мы либо сами делим данные на обучающее и тестовое множество, строим модель на обучающем и считаем ошибки на тестовом. Либо есть какие-то возможности сделать сэмплинг, построение выбранной модели и оценку ошибки автоматически.
В Loginom для чего-то присутствует как разделение на обучающее и тестовое множество, так и отдельно метод валидации, где опять можно выбрать метод сэмплинга, причем можно снова задать число колод кросс-валидации или % разбиение.
Как именно в Loginom выполняются разбиение и валидация и как это потом используется при построении модели и оценке ее качества?
На каком множестве подсчитываются результаты, которые выводятся в отчетах по регрессии и по качеству классификации? Например, при кросс-валидации получается k прогнозов, и обычно по ним выводятся агрегированные показатели, а в ROC диаграммах можно видеть средние и доверительные интервалы. Что выводится в Loginom?
Если включена кросс-валидация или разбиение на множества, то какая модель будет использоваться при использовании узла для прогнозирования: построенная на всех данных, построенная только на обучающем множестве, или одна из моделей, построенных в ходе кросс-валидации?