¿Qué es la minería de datos?
La minería de datos es el proceso de utilizar herramientas analíticas avanzadas para extraer información útil proveniente de una acumulación de datos.
Resumen sobre minería de datos
La minería de datos es el proceso de extraer información útil a partir de una acumulación de datos, a menudo provenientes de un almacén o de una recopilación de data sets vinculados. Las herramientas para minería de datos incluyen potentes capacidades estadísticas, matemáticas y analíticas cuyo propósito principal es examinar grandes data sets para identificar tendencias, patrones y relaciones a fin de dar soporte a la toma de decisiones y planificación fundamentadas.
A menudo asociada con consultas del departamento de marketing, muchos ejecutivos ven a la minería de datos como algo que los ayuda a comprender mejor la demanda y ver el efecto que tienen en las ventas los cambios en productos, precios o promociones. Pero la minería de datos también tiene un beneficio considerable para otras áreas del negocio. Ingenieros y diseñadores pueden analizar la eficacia de los cambios en los productos y buscar posibles causas de éxito o fracaso relacionadas con cómo, cuándo y dónde se los utiliza. Las operaciones de servicio y reparación pueden planificar mejor el inventario de piezas y las necesidades de personal. Las organizaciones de servicios profesionales pueden utilizar la minería de datos para identificar nuevas oportunidades provenientes de cambios en tendencias económicas y demográficas.
La minería de datos se vuelve más útil y valiosa si tiene data sets más grandes y más experiencias de usuario. Lógicamente, cuantos más datos, más información estratégica e inteligencia habría para extraer. Además, a medida que los usuarios se familiarizan más con las herramientas y comprenden mejor la base de datos, más creativos pueden ser en sus exploraciones y análisis.
¿Por qué utilizar la minería de datos?
El principal beneficio de la minería de datos es su poder para identificar patrones y relaciones en grandes volúmenes de datos provenientes de múltiples fuentes. Dada la creciente cantidad de datos disponibles –provenientes de fuentes tan variadas como redes sociales, sensores remotos, e informes cada vez más detallados sobre movimiento de productos y actividad del mercado–, la minería de datos ofrece las herramientas para explotar los big data al máximo y convertirlos en inteligencia accionable. Es más, puede actuar como un mecanismo para pensar fuera del cuadrado.
El proceso de minería de datos puede detectar relaciones y patrones sorprendentes e intrigantes en bits de información que aparentan no tener relación alguna. Dado que se tiende a poner la información en compartimentos, históricamente ha sido difícil o imposible de analizarla como un todo. Sin embargo, puede haber relación entre factores externos –tal vez demográficos o económicos– y el rendimiento de los productos de una empresa. Y aunque los ejecutivos analizan periódicamente los números de venta por territorio, línea de productos, canal de distribución y región, a menudo carecen de contexto externo para esa información. Su análisis señala lo que ocurrió, pero ayuda poco a descubrir por qué ocurrió de esa manera. La minería de datos puede cerrar esa brecha.
La minería de datos puede buscar correlaciones con factores externos; si bien estas no siempre indican causalidad, las tendencias pueden ser indicadores valiosos para guiar decisiones sobre productos, canales y producción. El mismo análisis beneficia a otras áreas del negocio, desde diseño de productos hasta eficiencia operativa y prestación de servicios.
Historia de la minería de datos
La humanidad viene recopilando y analizando datos desde hace miles de años y, de muchas maneras, el proceso se ha mantenido igual: identificar la información necesaria, encontrar fuentes de calidad, recopilar y combinar los datos, utilizar las herramientas más eficaces disponibles para analizarlos, y capitalizar lo aprendido. A medida que los sistemas informáticos y basados en datos crecieron y avanzaron, también lo hicieron las herramientas para gestionar y analizar información. El verdadero punto de inflexión llegó en la década de 1960 con el desarrollo de tecnología para bases de datos relacionales y herramientas de consulta en lenguaje natural orientadas al usuario tales como el Structured Query Language (SQL). Los datos ya no solo estaban disponibles a través de programas codificados personalizados. Con este avance, los usuarios de negocios podían explorar de forma interactiva sus datos y descubrir las gemas de inteligencia ocultas en su interior.
La minería de datos tradicionalmente ha sido un conjunto de habilidades especializadas dentro de la ciencia de datos. Sin embargo, cada nueva generación de herramientas analíticas al principio requiere habilidades técnicas avanzadas, pero evoluciona rápido y se vuelve accesible para los usuarios. La interactividad –la capacidad de permitir que los datos hablen con usted– es el avance clave. Haga una pregunta; vea la respuesta. Basado en lo que aprenda, haga otra pregunta. Este tipo de búsqueda no estructurada de la información lleva al usuario más allá del diseño de una base de datos específica para la aplicación, y le permite descubrir relaciones que trascienden los límites funcionales y organizacionales.
La minería de datos es un componente clave de la business intelligence. Las herramientas para minería de datos están integradas dentro de dashboards ejecutivos, desde donde extraen información estratégica proveniente de los big data, incluyendo redes sociales, sensores de internet de las cosas (IoT), dispositivos con geolocalización, texto no estructurado, video, y más. La minería de datos moderna se basa en la computación en la nube y virtual, así como en bases de datos in-memory, para gestionar datos provenientes de muchas fuentes de manera rentable y para escalar según la demanda.
¿Cómo funciona la minería de datos?
Hay casi tantos enfoques sobre la minería de datos como sus profesionales. El enfoque depende del tipo de preguntas que se hagan y del contenido y organización de la base de datos o data sets que brindan la materia prima para la búsqueda y análisis. Dicho esto, hay algunos pasos organizativos y preparatorios que deben llevarse a cabo sobre datos, herramientas y usuarios:
- Comprenda el problema –o al menos el área de consulta–. Quien tome la decisión en el negocio y esté al mando de esta aventura de minería de datos, debe tener una comprensión general del dominio donde trabajará –los tipos de datos internos y externos que deben ser parte de esa exploración–. Debe tener un conocimiento íntimo del negocio y las áreas funcionales involucradas.
- Recopilación de datos. Comience por sus sistemas y bases de datos internos. Vincúlelos a través de sus modelos de datos y diversas herramientas relacionales, o reúna la información dentro de un almacén de datos. Esto incluye cualquier dato proveniente de fuentes externas que sea parte de sus operaciones, tales como ventas y/o servicios de campo, IoT o redes sociales. Busque y adquiera derechos sobre datos externos, incluyendo demográficos, económicos y de inteligencia de mercado tales como tendencias de la industria y referencias financieras de asociaciones comerciales y gobiernos. Incorpórelos a las competencias del kit de herramientas (añádalos a su almacén de datos o vincúlelos al entorno de minería).
- Preparación y comprensión de los datos. Recurra a los expertos en materias de su negocio para que ayuden a definir, categorizar y organizar los datos. Esta parte del proceso suele denominarse manejo o preparación de datos. Algunos de ellos pueden necesitar limpieza, o "depuración", para eliminar duplicados, inconsistencias, registros incompletos o formatos obsoletos. Esta preparación y depuración puede ser una tarea continua a media que adquieren interés nuevos proyectos o datos provenientes de nuevos campos de investigación.
- Capacitación del usuario. Nadie le daría las llaves de una Ferrari a un adolescente sin que haya pasado por clases de educación vial, entrenamiento de prueba y prácticas supervisadas por un conductor con licencia. De la misma manera, asegúrese de brindar capacitación formal a sus futuros mineros de datos, así como práctica supervisada cuando comienzan a familiarizarse con estas poderosas herramientas. La capacitación continua también es una buena idea una vez que ellos dominan los conceptos básicos y pueden pasar a técnicas más avanzadas.
Técnicas de minería de datos
Tenga en cuenta que la minería de datos se basa en un kit de herramientas en lugar de una rutina o proceso fijo. Las técnicas específicas para minería de datos citadas aquí son meramente ejemplos de cómo las organizaciones utilizan las herramientas para explorar en busca de tendencias, correlaciones, inteligencia e información estratégica del negocio.
En términos generales, los enfoques de minería de datos se pueden clasificar como dirigidos –enfocados en un resultado deseado específico– o no dirigidos –como proceso de descubrimiento–. Otras exploraciones pueden tener como objetivo ordenar o clasificar los datos; por ejemplo, agrupar prospectos por atributos de negocio tales como industria, productos, tamaño y ubicación. Un objetivo similar, como en el caso de la detección de valores atípicos o anomalías, es lograr un método automatizado para reconocer las que son reales (no una simple variabilidad) dentro de un data set que muestra patrones identificables.
Asociación
Otro objetivo interesante es la asociación: vincular dos eventos o actividades aparentemente no relacionados. Una historia clásica, aunque tal vez ficticia, de los primeros tiempos de las analíticas y minería de datos le atribuye a una cadena de tiendas de conveniencia el descubrimiento de una correlación entre ventas de cerveza y de pañales. Especularon con que los padres abrumados que salían a altas horas de la noche a conseguir pañales aprovechaban y también compraban cerveza. Por eso las tiendas ponen la cerveza y los pañales cerca, y así aumentan las ventas de la bebida.
Clustering
Este enfoque tiene como objetivo agrupar los datos por similitudes y no por supuestos predefinidos. Por ejemplo, al extraer información sobre las ventas a sus clientes combinada con datos crediticios y demográficos externos, quizás descubra que sus compradores más rentables están en ciudades medianas. Gran parte del tiempo, la minería de datos se persigue como soporte para proyecciones o pronósticos. Cuanto mejor entienda usted los patrones y comportamientos, mejor será el trabajo que pueda hacer para proyectar acciones futuras asociadas a causas o correlaciones.
Regresión
El análisis de regresión, una de las técnicas matemáticas ofrecidas en los kits de herramientas para minería de datos, predice cifras basado en patrones históricos proyectados a futuro. Varios otros algoritmos de detección y seguimiento de patrones brindan herramientas flexibles para ayudar a los usuarios a comprender mejor los datos y el comportamiento que representan. Estas son solo algunas de las técnicas y herramientas disponibles en los kits de herramientas para minería de datos. La elección de la herramienta o técnica está en cierto modo automatizada, dado que se aplicarán de acuerdo a cómo se plantee la pregunta. Antes, a lo que hacía la minería de datos se le decía "dividir y cortar" la base de datos, pero ahora la práctica es más sofisticada y términos como "asociación", "clúster" y "regresión" son de uso común.
Casos de uso y ejemplos
La minería de datos es clave para análisis de sentimiento, optimización de precios, marketing de bases de datos, gestión del riesgo crediticio, capacitación y soporte, detección de fraudes, cuidado de la salud y diagnósticos médicos, evaluación de riesgos, sistemas de recomendación (“a los clientes que compraron esto también les gustó… ”), y mucho más. Puede ser una herramienta eficaz en casi cualquier industria, incluyendo comercio minorista, distribución mayorista, servicios, telecomunicaciones, medios de comunicación, seguros, educación, fabricación, cuidado de la salud, banca, ciencia, ingeniería, marketing on-line y redes sociales.
Desarrollo de productos: las empresas que diseñan, fabrican o distribuyen productos físicos pueden identificar oportunidades para dirigirlos mejor analizando patrones de compra junto con datos económicos y demográficos. Sus diseñadores e ingenieros también pueden realizar referencias cruzadas entre feedback de clientes y usuarios, registros de reparación, y otros datos, a fin de identificar oportunidades de mejora en el producto.
Fabricación: los fabricantes pueden hacer seguimiento desde el campo sobre las tendencias de calidad, información sobre reparaciones, tasas de producción y datos sobre rendimiento del producto a fin de identificar problemas de producción. También pueden reconocer posibles actualizaciones de procesos que mejoren la calidad, ahorren tiempo y costo, optimicen el rendimiento del producto, y/o indiquen la necesidad de tener un equipamiento nuevo o mejor en la fábrica.
Industrias de servicios: estos usuarios pueden encontrar oportunidades similares para mejorar sus productos haciendo referencias cruzadas entre feedback del cliente (directo, en redes sociales u otras fuentes) y servicios, canales, rendimiento de pares, región, precios, información demográfica y económica, entre otros temas.
Por último, todos estos hallazgos deben volcarse a las proyecciones y planes para que toda la organización esté en sintonía con los cambios anticipados para la demanda gracias a un conocimiento más íntimo del cliente –y a una mejor posición para explotar las nuevas oportunidades identificadas–.
Desafíos de la minería de datos
Big data: la información se genera a un ritmo acelerado, ofreciendo cada vez más oportunidades para la minería de datos. Sin embargo, es necesario tener herramientas modernas para extraer significado de los big data, dado el gran volumen, velocidad y variedad de las estructuras, así como el creciente volumen de datos no estructurados. Muchos sistemas existentes tienen dificultades para manejar, almacenar y hacer uso de esa cantidad de input.
Competencia del usuario: las herramientas de minería y análisis de datos están diseñadas para ayudar a usuarios y tomadores de decisiones a dar sentido y extraer significado e información estratégica a partir de la masa de datos. Si bien son muy técnicas, estas potentes herramientas ahora vienen en paquetes con un excelente diseño de experiencia de usuario, así que prácticamente cualquier persona puede utilizarlas con mínima capacitación. Sin embargo, para obtener todos los beneficios, los usuarios deben comprender los datos disponibles y el contexto de negocios de la información que están buscando. También deben saber, al menos en general, cómo funcionan y qué pueden hacer las herramientas. Esto no está fuera del alcance del gerente o ejecutivo promedio, pero es un proceso de aprendizaje, y los usuarios deben hacer cierto esfuerzo para desarrollar este nuevo conjunto de habilidades.
Calidad y disponibilidad de los datos: en la masa de datos nuevos también hay una masa de datos incompletos, incorrectos, engañosos, fraudulentos, dañados o simplemente inútiles. Las herramientas pueden ayudar a ordenar todo esto, pero los usuarios siempre deben conocer la fuente de los datos, su credibilidad y confiabilidad. Las preocupaciones sobre privacidad también son importantes, tanto en términos de la adquisición de datos como de su protección y manejo una vez que están bajo su posesión.
Preguntas frecuentes sobre minería de datos
Amplíe su expertise en la gestión de datos
Comprenda el proceso de la gestión de datos y sus beneficios.
Ideas que no encontrará en ningún otro lugar
Regístrese para recibir una dosis de business intelligence directamente en su bandeja de entrada.