Minería de datos frente a almacenamiento de datos
La minería de datos y el almacenamiento de datos son técnicas muy poderosas y populares para analizar datos. Los usuarios que se inclinan por las estadísticas utilizan la minería de datos. Utilizan modelos estadísticos para buscar patrones ocultos en los datos. Los mineros de datos están interesados en encontrar relaciones útiles entre diferentes elementos de datos, lo que en última instancia es rentable para las empresas. Pero, por otro lado, los expertos en datos que pueden analizar las dimensiones del negocio directamente tienden a usar almacenes de datos.
La minería de datos también se conoce como Knowledge Discovery in data (KDD). Como se mencionó anteriormente, es un campo de la informática, que se ocupa de la extracción de información interesante y previamente desconocida a partir de datos sin procesar. Debido al crecimiento exponencial de los datos, especialmente en áreas como los negocios, la minería de datos se ha convertido en una herramienta muy importante para convertir esta gran cantidad de datos en inteligencia empresarial, ya que la extracción manual de patrones se ha vuelto aparentemente imposible en las últimas décadas. Por ejemplo, actualmente se utiliza para diversas aplicaciones, como análisis de redes sociales, detección de fraudes y marketing. La minería de datos generalmente se ocupa de las siguientes cuatro tareas: agrupación, clasificación, regresión y asociación. La agrupación en clústeres identifica grupos similares a partir de datos no estructurados. La clasificación son reglas de aprendizaje que se pueden aplicar a nuevos datos y normalmente incluirán los siguientes pasos: preprocesamiento de datos, diseño de modelos, aprendizaje/selección de características y evaluación/validación. La regresión es encontrar funciones con un error mínimo para modelar datos. Y la asociación busca relaciones entre variables. La minería de datos generalmente se usa para responder preguntas como ¿cuáles son los principales productos que podrían ayudar a obtener altas ganancias el próximo año en Wal-Mart?
Como se mencionó anteriormente, el almacenamiento de datos también se usa para analizar datos, pero por diferentes conjuntos de usuarios y con un objetivo ligeramente diferente en mente. Por ejemplo, cuando se trata del sector minorista, los usuarios de almacenamiento de datos están más preocupados por qué tipos de compras son populares entre los clientes, por lo que los resultados del análisis pueden ayudar al cliente al mejorar la experiencia del cliente. Pero los mineros de datos primero conjeturan una hipótesis, como qué clientes compran un determinado tipo de producto y analizan los datos para probar la hipótesis. El almacenamiento de datos podría ser realizado por un minorista importante que inicialmente abastece sus tiendas con los mismos tamaños de productos para luego descubrir que las tiendas de Nueva York venden inventario de tamaño más pequeño mucho más rápido que en las tiendas de Chicago. Entonces, al observar este resultado, el minorista puede abastecer la tienda de Nueva York con tamaños más pequeños en comparación con las tiendas de Chicago.
Entonces, como puede ver claramente, estos dos tipos de análisis parecen ser de la misma naturaleza a simple vista. Ambos se preocupan por aumentar las ganancias en función de los datos históricos. Pero, por supuesto, hay diferencias clave. En términos simples, Data Mining y Data Warehousing se dedican a proporcionar diferentes tipos de análisis, pero definitivamente para diferentes tipos de usuarios. En otras palabras, la minería de datos busca correlaciones, patrones para respaldar una hipótesis estadística. Sin embargo, el almacenamiento de datos responde a una pregunta comparativamente más amplia y divide los datos a partir de ahí para reconocer formas de mejora en el futuro.