ПОРІВНЯЛЬНИЙ АНАЛІЗ ІЄРАРХІЧНИХ МЕТОДІВ КЛАСТЕРІЗАЦІЇ, ПРИДАТНИХ ДЛЯ ОБРОБЛЕННЯ ДАНИХ МОРФОЛОГІЧНИХ ОЗНАК СОРТІВ РОСЛИН
DOI:
https://doi.org/10.31210/visnyk2019.02.35Ключові слова:
ієрархічні агломеративні методи, метрика, набір даних Іриси Фішера, класифікація, перехресні таблиціАнотація
Незважаючи на те, що кластеризація є безконтрольною класифікацією багатовимірних даних у
відповідні кластери, застосування кластерного аналізу під час дослідження морфологічних харак-
теристик сортів рослин дозволяє зменшити розмірність вибірки даних, що сприяє більш точній іде-
нтифікації нових сортів. Саме тому важливим питанням є порівняння результатів кластеризації із
застосуванням різних методів і метрик та виявлення найбільш придатних для аналізу морфологічних
характеристик. Методи: аналітичний, математичний, статистичний, графічний. Під час виконан-
ня досліджень використано широко відомий набір даних, що має назву Іриси Фішера. Результати.
Досліджено вплив на результат кластерного аналізу різних ієрархічних агломеративних методів
класифікації (ближнього сусіда, дальнього сусіда, середнього зв'язку, середнього сусіда (центроїда)
та метода Варда) із застосуванням евклідових та не евклідових метрик. Оцінено результати клас-
терізації з використанням засобів описової статистики (методу перехресних таблиць). Встановле-
но, що найбільш придатними для проведення кластеризації за морфологічними характеристиками
для наборів даних, які описуються метричними шкалами є методи: середнього зв'язку (між групами)
із застосуванням кореляції Пірсона, середнього зв'язку (всередині групи) із застосуванням метрик
Косінус та кореляції Пірсона, а також методу Варда із застосуванням метрики Косінус. Запропо-
новано використовувати апарат частотної статистики (перехресні таблиці) для оцінювання якос-
ті результатів класифікації. Висновки. Проведене тестування довело, що не існує жодного універса-
льного алгоритму, який би ідеально розподілив набір Ірисів Фішера на кластери. Не зважаючи на те,
що встановлено методи й метрики, які є найбільш вдалими для класифікації протестованого набору
даних, ці методи не можна рекомендувати для використання під час тестування морфологічних оз-
нак усіх ботанічних таксонів. Кластеризацію сортів рослин потрібно проводити ітераційно, послі-
довно застосовуючи найбільш поширені алгоритми кластеризації та ретельно оцінювати результа-
ти кластеризації з метою вибору метода та метрики, які найбільш оптимально класифікують сор-
ти рослин та дозволять правильно інтерпретувати результати класифікації. Результати такої
кластеризації рекомендовано оцінювати з використанням методу перехресних таблиць та обирати
кращий за якістю кластерів.