Ce tip de clustering ar putea gestiona date mari?
Ce tip de clustering ar putea gestiona date mari?

Video: Ce tip de clustering ar putea gestiona date mari?

Video: Ce tip de clustering ar putea gestiona date mari?
Video: Partitioning and Clustering with BigQuery 2024, Noiembrie
Anonim

Ierarhic gruparea nu pot gestionează datele mari bine, dar K Înseamnă gruparea poate sa. Acest lucru se datorează faptului că complexitatea timpului a K Mediilor este liniară, adică O(n), în timp ce cea a ierarhiei gruparea este pătratică, adică O(n2).

În acest sens, ce este clusteringul în big data?

Clustering este o tehnică de învățare automată care implică gruparea date puncte. Dat un set de date puncte, putem folosi a gruparea algoritm pentru a clasifica fiecare date punct într-un anumit grup.

În mod similar, ce este gruparea și tipurile sale? Clustering metodele sunt utilizate pentru a identifica grupuri de obiecte similare într-un set de date multivariate colectate din domenii precum marketing, bio-medical și geo-spațial. Sunt diferite tipuri de gruparea metode, inclusiv: Metode de partiţionare. Ierarhic gruparea . Bazat pe model gruparea.

De asemenea, să știți, ce fel de algoritm de grupare este mai bun pentru seturi de date foarte mari?

K-Mijloace care este una dintre cele mai folosite gruparea metode şi K-Mijloace bazat pe MapReduce este considerată o soluție avansată pentru clustering de seturi de date foarte mari . Cu toate acestea, timpul de execuție este încă un obstacol din cauza numărului tot mai mare de iterații atunci când există o creștere a set de date dimensiunea și numărul de clustere.

Pentru ce este folosit clustering-ul?

Clustering este o metodă de învățare nesupravegheată și este o tehnică comună pentru analiza datelor statistice folosit in multe domenii. În Data Science, putem folosi gruparea analiză pentru a obține câteva informații valoroase din datele noastre, văzând în ce grupuri se încadrează punctele de date atunci când aplicăm o gruparea algoritm.

Recomandat: