Diferencia entre agrupamiento jerárquico y particional

Diferencia entre agrupamiento jerárquico y particional
Diferencia entre agrupamiento jerárquico y particional

Video: Diferencia entre agrupamiento jerárquico y particional

Video: Diferencia entre agrupamiento jerárquico y particional
Video: Medidas de peso . Libras y Onzas 2024, Noviembre
Anonim

Clustering jerárquico frente a particionado

Clustering es una técnica de aprendizaje automático para analizar datos y dividirlos en grupos de datos similares. Estos grupos o conjuntos de datos similares se conocen como clústeres. El análisis de conglomerados analiza los algoritmos de conglomerados que pueden identificar los conglomerados automáticamente. Jerárquico y Particional son dos de esas clases de algoritmos de agrupamiento. Los algoritmos de agrupamiento jerárquico dividen los datos en una jerarquía de grupos. Los algoritmos particionales dividen el conjunto de datos en particiones separadas entre sí.

¿Qué es la agrupación jerárquica?

Los algoritmos de agrupación jerárquica repiten el ciclo de fusionar grupos más pequeños en grupos más grandes o dividir grupos más grandes en grupos más pequeños. De cualquier manera, produce una jerarquía de grupos llamada dendograma. La estrategia de agrupamiento aglomerativo utiliza el enfoque de abajo hacia arriba de fusionar los agrupamientos en grupos más grandes, mientras que la estrategia de agrupamiento divisivo utiliza el enfoque de arriba hacia abajo de dividirse en los más pequeños. Por lo general, el enfoque codicioso se usa para decidir qué grupos más grandes o más pequeños se usan para fusionarse o dividirse. La distancia euclidiana, la distancia de Manhattan y la similitud del coseno son algunas de las métricas de similitud más utilizadas para datos numéricos. Para datos no numéricos, se utilizan métricas como la distancia de Hamming. Es importante tener en cuenta que las observaciones reales (instancias) no son necesarias para el agrupamiento jerárquico, porque solo la matriz de distancias es suficiente. Dendogram es una representación visual de los grupos, que muestra la jerarquía muy claramente. El usuario puede obtener diferentes agrupamientos dependiendo del nivel en el que se corte el dendograma.

¿Qué es el agrupamiento particional?

Los algoritmos de agrupamiento particional generan varias particiones y luego las evalúan según algún criterio. También se conocen como no jerárquicos, ya que cada instancia se coloca exactamente en uno de los k clústeres mutuamente excluyentes. Debido a que solo un conjunto de conglomerados es el resultado de un algoritmo de conglomerado particional típico, el usuario debe ingresar el número deseado de conglomerados (generalmente llamado k). Uno de los algoritmos de agrupamiento particional más utilizados es el algoritmo de agrupamiento k-means. El usuario debe proporcionar el número de grupos (k) antes de comenzar y el algoritmo inicia primero los centros (o centroides) de las k particiones. En pocas palabras, el algoritmo de agrupamiento k-means luego asigna miembros en función de los centros actuales y vuelve a estimar los centros en función de los miembros actuales. Estos dos pasos se repiten hasta que se optimizan una cierta función objetivo de similitud intra-cluster y una función objetivo de disimilitud entre clusters. Por lo tanto, la inicialización sensata de los centros es un factor muy importante para obtener resultados de calidad de los algoritmos de agrupamiento particional.

¿Cuál es la diferencia entre el agrupamiento jerárquico y el particional?

Los clústeres jerárquicos y particionales tienen diferencias clave en el tiempo de ejecución, las suposiciones, los parámetros de entrada y los clústeres resultantes. Por lo general, la agrupación en clústeres particional es más rápida que la agrupación en clústeres jerárquica. El agrupamiento jerárquico requiere solo una medida de similitud, mientras que el agrupamiento particional requiere suposiciones más sólidas, como el número de grupos y los centros iniciales. La agrupación en clústeres jerárquica no requiere ningún parámetro de entrada, mientras que los algoritmos de agrupación en clústeres particionales requieren la cantidad de clústeres para comenzar a ejecutarse. El agrupamiento jerárquico devuelve una división mucho más significativa y subjetiva de los agrupamientos, pero el agrupamiento particional da como resultado exactamente k agrupamientos. Los algoritmos de agrupación jerárquica son más adecuados para datos categóricos siempre que se pueda definir una medida de similitud en consecuencia.

Recomendado: