Бөлшектік кластерлеу және иерархиялық

Кластерлеу - бұл деректерді талдауға және ұқсас мәліметтер топтарына бөлінуге арналған машиналық оқыту әдісі. Бұл топтар немесе ұқсас мәліметтер жиынтығы кластерлер деп аталады. Кластерлік талдау кластерлерді автоматты түрде анықтай алатын кластерлік алгоритмдерді қарастырады. Иерархиялық және парциалдық - кластерлік алгоритмдердің осындай екі классы. Иерархиялық кластерлік алгоритмдер мәліметтерді кластерлердің иерархиясына бөледі. Ата-аналық алгоритмдер жинақталған мәліметтерді өзара бөлінетін бөлімдерге бөледі.

Иерархиялық кластерлеу дегеніміз не?

Иерархиялық кластерлік алгоритмдер кішігірім кластерлерді үлкеніректерге біріктіру немесе үлкен кластерлерді кішілерге бөлу циклін қайталайды. Қалай болғанда да, ол дендограмма деп аталатын кластерлердің иерархиясын жасайды. Агломеративті кластерлеу стратегиясы үлкен кластерлерге біріктіруден «төменнен жоғары» тәсілін қолданады, ал бөлгіш кластерлеу стратегиясында кішігірімге бөлудің жоғарыдан-төмен тәсілін қолданады. Әдетте ашкөздік тәсіл үлкен / кіші кластерлерді біріктіру / бөлу үшін қолданылатындығын шешуде қолданылады. Евклид қашықтық, Манхэттен қашықтығы және косинус ұқсастығы - сандық деректер үшін жиі қолданылатын ұқсастық. Сандық емес деректер үшін Хамминг қашықтық сияқты өлшемдер қолданылады. Нақты бақылаулардың (даналардың) иерархиялық кластерлеу үшін қажет емес екенін ескеру керек, өйткені тек қашықтық матрицасы жеткілікті. Дендограмма - бұл иерархияны нақты көрсететін кластерлердің көрнекі бейнесі. Пайдаланушы дендограмма кесілген деңгейге байланысты әртүрлі кластерлеуді ала алады.

Бөлшек кластерлеу дегеніміз не?

Жартылай кластерлік алгоритмдер әртүрлі бөлімдер жасайды, содан кейін оларды белгілі бір өлшем бойынша бағалайды. Оларды сонымен қатар иерархиялық емес деп атайды, өйткені әр данасы k бір-бірінен айрықша кластерлердің бірінде орналастырылған. Кластерлердің тек бір ғана жиынтығы типтік кластерлік алгоритмнің нәтижесі болғандықтан, пайдаланушыдан кластерлердің қажетті санын енгізу қажет (әдетте k деп аталады). Жиі қолданылатын ішінара кластерлік алгоритмдердің бірі k-деген кластерлік алгоритм. Пайдаланушы кластерлер санын (k) қамтамасыз етуі керек және алгоритм алдымен k бөлімдерінің орталықтарын (немесе центроидтерін) бастайды. Бір сөзбен айтқанда, k-кластерлік алгоритм дегенді білдіреді, содан кейін ағымдағы орталықтар негізінде мүшелерді тағайындайды және ағымдағы мүшелер негізінде қайта бағалау орталықтарын құрады. Бұл екі қадам белгілі бір ішкі кластерлік ұқсастықтың объективті функциясы мен кластераралық ұқсастықтың объективті функциясы оңтайландырылғанша қайталанады. Сондықтан орталықтардың саналы инициализациясы жартылай кластерлік алгоритмдерден сапалы нәтиже алудың маңызды факторы болып табылады.

Иерархиялық және парциалды кластерлеудің айырмашылығы неде?

Иерархиялық және параллельді кластерлеу жұмыс уақытында, жорамалдарда, енгізу параметрлері мен нәтижелік кластерлерде маңызды айырмашылықтарға ие. Әдетте, ішінара кластерлеу иерархиялық кластерлеуге қарағанда тезірек жүреді. Иерархиялық кластерлеу тек ұқсастық өлшемін талап етеді, ал жартылай кластерлеу кластерлер саны мен бастапқы орталықтар сияқты күшті болжамдарды қажет етеді. Иерархиялық кластерлеу ешқандай енгізу параметрлерін қажет етпейді, ал ішінара кластерлеу алгоритмдері іске қосуды бастау үшін кластерлер санын талап етеді. Иерархиялық кластерлеу кластерлердің мағыналы және субъективті бөлінуін қайтарады, бірақ жартылай кластерлеу дәл k кластерлерге әкеледі. Иерархиялық кластерлік алгоритмдер сәйкестік өлшемі сәйкесінше анықталуы мүмкін болғанша, категориялық деректер үшін қолайлы болады.