3. Кластерный анализ
(кластеризация, таксономия,
самообучение, обучение без учителя)
предназначен для разбиения множества
объектов на заданное или неизвестное
число классов на основании некоторого
математического критерия качества
классификации (cluster — гроздь, пучок,
скопление, группа элементов,
характеризуемых каким-либо общин
свойством).
4. Критерий качества отражают:
внутри групп объекты должны быть
тесно связаны между собой;
объекты разных групп должны быть
далеки друг от друга;
при прочих равных условиях
распределения объектов по группам
должны быть равномерными.
5.
6. алгоритм "К-внутригрупповых
средних"
минимизирует показатель качества,
определяемый как сумма квадратов
расстояний всех точек, входящих в
кластерную область, до центра
кластера. Качество работы этого
алгоритма зависит от числа
выбираемых центров кластеров и от
выбора исходных центров кластеров;
7. модифицируемый алгоритм
"ISODATA"
В принципе аналогичен предыдущему
алгоритму, однако обладает
дополнительными эвристическими
процедурами, позволяющими получать
лучшую оценку качества кластеризации.
В этом алгоритме центрами кластеров
служат выборочные средние,
определяемые итеративно;
9. алгоритм типа "FOREL"
позволяющий методом
последовательных приближений
находить минимальный радиус
гиперсферы, дающий разбиение
совокупности объектов на заданное
число классов.
10.
11. Выбрать таблицу экономических данных из базы
данных, созданной в Access, по дисциплине "База
данных конечных пользователей".
Выполнить экспорт таблицы в MS Excel и
сохранить ее в виде файла.
Загрузить систему "КАРКАС" и перейти на вкладку
"Кластеризация" и выбрать пункт меню "К-
внутригрупповых средних/ISODATA"
18. Далее, нажимаем на кнопку "Выполнить
расчет KGS" и наблюдаем за
сообщениями на экране.
После стабилизации работы алгоритма
"К-внутригрупповых средних" можно
просмотреть результаты кластеризации.
20. Выводы:
Представлены результаты кластеризации 7 объектов по
2 признакам. Из самого расположения объектов в
признаковом пространстве следует, что при
вычислительном эксперименте следовало бы выбрать
число кластеров не 1 , а 2.
Поскольку на рисунке четко выражены 2 кластера:
первый кластер содержит объекты (1 – 4 и 6-7), а
второй кластер содержит один объект 5.
Но если эксперт считает, что число объектов в
кластерах должно быть больше 1, то результат
кластеризации в этом случае подсказывает, что
имеется 1 кластер форма, которого имеет вид
вытянутого облака.