Оценка значимости кластеров

0 голосов
Tata_M в категории Как сделать...
Добрый день! В профиле кластеров (кластерный анализ k-средних) заложен показатель значимости поля или ячейки. Подскажите, пожалуйста, на чем он основывается. Есть ли какие-то границы данной значимости.  Например, если мера значимости по каждому признаку меньше 50%, тогда на такую кластерную модель не стоит ориентироваться. Или надо обращать внимание на более равную меру влияния каждого признака вне зависимости от значения значимости (например, кластер основывается на 4-х признаков и мера влияния каждого соответственно 32/43/37/45).

Может быть в программе есть еще какие-то возможности для обоснования выбора кластерной модели (количества кластеров). Я обычно использовала p-значение (меньше 0,05) или скорректированный R-квадрат (внутрикластерная и общая дисперсия).

Заранее благодарю за ответ.

Ответ: 1 шт.

+1 голос
nikolay.paklin

Качество кластеризации для центроидных алгоритмов принято измерять при помощи кластерных силуэтов и индекса качества кластеризации.

Также при помощи индекса качества кластеризации можно выбрать оптимальное число кластеров.

Кластерные силуэты сейчас можно построить, используя готовый компонент из библиотеки Loginom Silver Kit.

Tata_M
Спасибо!
xgen
Добрый день.

Кластерные силуэты и индексы понятно, но что именно показывает поле Значимость? Я так понимаю в диапазоне 0-100.

Например, 3 кластера, 4 признака, в каждом своя Значимость понятно, что чем больше-тем лучше но как именно вычислена Значимость?

Ведь это поле есть во всех методах кластеризации
Ирина Комарова
Для каждого атрибута кластера рассчитываются статистики и производится попарный t-тест между текущим

кластером и всеми другими, выбирается наименьшая из t-статистик, которая и принимается за значимость

атрибута. Т.е. значимость пропорциональна вероятности гипотезы: «средние значения атрибутов для двух

ближайших кластеров не совпадают».
...