Свойство полноты данных

0 голосов
ЕкатеринаА в категории Ошибки

Уважаемые разработчики, добрый день!
В ходе построения дерева решений столкнулась со следующей проблемой.
На переменную ФАМИЛИЯ  (строковый тип данных, записана только фамилия) мастер обработки выдает сообщение "Переход запрещён".
Причина: В обучающем наборе данных уникальные значения поля ФАМИЛИЯ не обладают свойством полноты.
Подскажите пожалуйста, как решить эту проблему?
Заранее спасибо!

Ответ: 1 шт.

0 голосов
AlexeyS

Общий ответ состоит в том, что модель не может принимать решения по значениям дискретного входного поля, не входящим в обучающее множество. В частности, это случается на этапе обучения при попадании в тестовое множество значения, отсутствующего в обучающем.

Если нет уверенности в значимости поля (фамилия) для выходной переменной, то его надо просто исключить из входных полей (поставить назначение - неиспользуемое).

Если дискретное поле (фамилия) значимо, то необходимо принять решение, что делать со значениями, не входящими в обучающее множество, буде таковые вообще допустимы. Т.е. если в тестовом множестве при обучении модели или в рабочем множестве при дальнейшем использовании модели появляется новое значение входного дискретного поля (новая фамилия), то модель не может знать, как его обрабатывать. Если есть понимание, что все новые значения можно приблизительно оценить, как какое-то из существующих в обучающем множестве (фамилия X), то делается замена значений по схеме "заменять другие на" - фамилия X.  И в качестве входного поля при обучении и дальнейшем использовании берется выход узла замены. Иногда значения дискретного поля группируются в более крупные сегменты, например, с помощью конечных классов. Тогда решение по прочим нужно принимать до этапа группировки или конечных классов, чтобы получить отнесение к известной группе по известным при обучении данным. Возможны и более тонкие решения - все зависит от наличия понимания того, какие новые значения можно обоснованно сопоставить имеющимся в обучающем множестве. Обоснованность должна строится на фактах и непротиворечивых следствиях из фактов, но не на чистом здравом смысле без использования фактов.

...