Что такое средняя и максимальная ошибки квантования при кластеризации с использованием карты Кохонена в Deductor?

0 голосов
Сочков Андрей Львович в категории Алгоритмы
Желательно дать определение, чтобы было понятно, что они характеризуют и как их трактовать и использовать. Если дадите формулу их расчета будет очень хорошо (или ссылку на страничку, где эту формулу можно посмотреть и изучить).

Ответ: 1 шт.

0 голосов
Ирина Комарова

Если речь идет о настройке параметров остановки обучения, то:  

  • Считать пример распознанным, если ошибка меньше – критерием останова в данном случае является условие, что рассогласование между эталонным и реальным выходом карты становится меньше заданного значения.

За ошибку принято расстояние от вектора признаков примера x до вектора признаков ближайшей ячейки u Error = d(x, u).

  • Средняя ошибка меньше – средняя квадратичная ошибка на обучающем или тестовом множестве меньше заданного значения.
  • Максимальная ошибка меньше – максимальная квадратичная ошибка на обучающем и тестовом множестве меньше заданного значения.

Сочков Андрей Львович

Спасибо за ответ, но речь в моем вопросе идет о других характеристиках. Речь идет о характеристиках, которые появляются после завершения процесса построения карты и формирования кластеров, на вкладке "Связи кластеров" под прямоугольником с номером кластера можно вывести на экран мощность кластера, а также "максимальная ошибка квантования" и "средняя ошибка квантования". Вопрос именно об этих характеристиках. Что они из себя представляют? Как рассчитываются? Попробую приложить скрин части вкладки "Связи кластеров".

Ирина Комарова
Максимальная ошибка квантования – это нормированное расстояние от центра кластера до самого удаленного примера в других кластерах.

Средняя ошибка квантования – это нормированное расстояние от центра кластера до вектора со средними значениями признаков в других кластерах.

Мощность – количество примеров, попавших в кластер.
nikolay.paklin
Для Deductor есть Руководство по алгоритмам, там многие вещи расписаны.
Сочков Андрей Львович
Да, я знаю это руководство. Я его скачал и изучил, но про ошибки квантования ничего не нашел. Может быть вы подскажите, на какой странице про них идет речь в руководстве? Или, по крайней мере, в каком разделе руководства? Может быть, я просмотрел что-то. Заранее спасибо.
nikolay.paklin
Этого уже никто не подскажет, так как Deductor давно не поддерживается и не развивается.
Ирина Комарова
Связи кластеров стр. 57
Сочков Андрей Львович

Уважаемая Ирина, вы пишите, что ошибки квантования - это расстояния (различные: максимальные или средние) от центра кластера до примеров в других кластерах. Вы уверены в этом? Может быть, это расстояния до примеров в этом же самом кластере? Если трактовать ошибки квантования как расстояние от центра кластера до примеров в других кластерах, то получается, что чем они больше (чем больше эти расстояния между центром одного кластера и примерами в других кластерах), тем лучше, тем лучше качество кластеризации. Однако, вычислительные эксперименты на тестовых массивах данных показали, что качество кластеризации лучше у тех разбиений (карт), которые имеют минимальные ошибки квантования, то есть получается, что чем меньше эти расстояния, тем лучше. Поэтому я еще раз и спрашиваю, не идет ли речь про те же самые кластеры, то есть не являются ли ошибки квантования расстояниями (средними или максимальными) от центра кластера до примеров (самых удаленных или средних) в том же самом кластере? Заранее благодарен за будущее важное уточнение.

Сочков Андрей Львович
Но пока еще используется :)
nikolay.paklin

Уважаемый Андрей Львович.

Карта Кохонена не предназначена для решения задачи кластеризации, как это ни покажется странным. Она предназначена в первую очередь для решения задачи многомерной визуализации. Сделанный поверх сети Кохонена алгоритм k-средних для дополнительной кластеризации ячеек карты (сети Кохонена) является авторской разработкой Deductor, в которой много эвристик и вопросов иногда больше, чем ответов.

По этой причине для воспроизводимости и достоверности научных экспериментов для решения задачи кластеризации (а не многомерной визуализации) рекомендуется использовать сеть Кохонена, которая полноценно реализована в Loginom, с прекрасным визуализатором Профили кластеров. А оценивать качество кластеризации - методом силуэтов, на эту тему у нас есть прекрасный воркшоп, преподавателям вузов-участников академической программы он доступен в Loginom Skills.

Сочков Андрей Львович
Понял, спасибо.
...