Создание модели с логистической регрессией

0 голосов
Сергей126 в категории Как сделать...
Добрый день!

Подскажите верный вариант решения. Есть набор из 100 тыс. записей, 4 входных столбца с текстовыми фразами (одно или несколько слов) и целевое бинарное поле Успех/Неуспех. Доля строк успеха = 1%. Думаю, что здесь нужна логистическая регрессия, но как быть со входами - оставить фразы как есть или заменить их субъективную числовую оценку (0..100). Пробовал с числами - получается немного лучше. Нужен ли использовать компонент "Конечные классы" или ещё что-то. В итоге необходимо создать модель предсказания.

Спасибо

Ответ: 1 шт.

0 голосов
alexey.arustamov
Не понятно, что предполагается решать. Формулировка задачи не ясная. Могли бы объяснить подробнее, что хочется получить на выходе?
Сергей126
На выходе нужна модель, которая будет предсказывать вероятность Успеха от значений во входных столбцах. Сейчас (процесс обучения) разнообразие фраз в них около 50-ти, в будущем может больше. Подумал, что может всё-таки стоить перейти от фраз к числам. Поэтому, интересно, какие компоненты для решения следует использовать?
alexey.arustamov
Если вы хотите подать на вход текст, а на выходе получить бинарный выход "Успех"/"Не успех", но так, как вы описали это не работает. Не надо путать визионерские статьи или выступления с реальностью.

С точки зрения алгоритма - каждая строка - это просто уникальный номер. Считайте, что подаете на вход математическому методу случайное число. Много ли можно ожидать от такого подхода к решению?

Text mining, а именно про это скорее всего тут речь, предполагает гораздо более хитрую обработку. Подробнее можно почитать, например, тут - https://data-flair.training/blogs/text-mining/.
Сергей126
Нашел решение - Нейросеть (Классификация). Процент ошибок классификации на обучающем множестве составил 30%. Выбрал записи по отклонению по ID класса Прогноза и Факта (доля 21%). Сделал кривые по Апостериорной вероятности (сортировка) и Индексу Джини. Получается разное - они из одного центра или параллельные, гладкие или ступенчатые. Подскажите, как оценить качество модели?
...