Análisis de Datos

¿Qué es el Análisis de Datos?

El análisis de datos es una disciplina que utiliza una serie de técnicas para acopiar, examinar, limpiar, ordenar, transformar y combinar los datos para obtener resultados operativos y visuales capaces de aportar valor en la toma de decisiones. Esta es una definición que recoge los elementos fundamentales del proceso de trabajo que se despliega siempre sobre los datos. No obstante, en nuestro enfoque, es fundamental considerar, antes de entrar en más detalles, una estrategia general del análisis de datos.

Elementos estratégicos del análisis de datos

Un proyecto de análisis de datos no es, en una perspectiva estratégica, diferente de cualquier otro proyecto.

En primer lugar, para justificar su existencia debe responder a la pregunta ¿para qué?. Tiene que tener un propósito alineado con los objetivos de la empresa o institución para la cual se va a realizar. Sólo después de aclarar ese punto positivamente estará fundamentado y podremos emprender el proceso sobre bases firmes, y ello siempre que cumplamos la condición de subordinar todo lo demás al propósito identificado. Visto en secuencia, debemos ser capaces de responder a cuatro preguntas, tal como muestra la siguiente ilustración:

Qindice - Elementos estratégicos del análisis de datos

¿Para qué el Análisis de Datos? -Propósito-

Supongamos, por ejemplo, que nuestro cliente necesita evaluar el potencial de negocio de la marca T en España, donde ya está operando, puesto que tiene una oferta para comprar la marca en este mercado.

Es obvio que el propósito sólo podrá cumplirse si somos capaces de aportar información relevante para dicha evaluación y conocer las condiciones para un desarrollo óptimo de aquel potencial.

Por tanto, un proyecto de investigación basado en datos estaría del todo justificado. Esto y sólo esto nos permite seguir pensando en el proyecto.

¿Qué analizar? -Objetos-

Evaluar el potencial de negocio de una marca que no es nueva, aunque su desarrollo en el mercado español haya sido limitado, no es una mera cuestión de capacidad del mercado y de volumen de consumo. Es necesario producir información más específica: como veremos a continuación, esto se concreta fundamentalmente en observar el comportamiento de los consumidores, la posición de la marca y de sus competidores, la posición acerca de algunas ideas clave sobre la compra y el consumo y las actitudes derivadas, que serán el antecedente del comportamiento futuro.

De acuerdo con el propósito al que la investigación debe servir, necesitaremos abordar algunos objetos de estudio. La naturaleza más bien genérica del propósito que justifica este proyecto hace difícil excluir completamente algún tipo de objeto. Los objetos de estudio son clasificables, con carácter general, en cuatro grandes tipos:

  • objetos que son del orden de los Hechos,
  • objetos que son del orden de los Impactos,
  • objetos que son del orden de las Ideas,
  • objeto que son del orden de las Actitudes.

En efecto, si queremos anticipar las tendencias de la demanda, necesitaremos en primer lugar conocer la realidad actual: cómo es el comportamiento actual de la demanda y qué preferencias revela sobre la oferta disponible y qué relación tienen tales preferencias con las características de la demanda potencial: diferencias territoriales y sociodemográficas en general. Tanto los comportamientos de compra como de consumo forman parte de los hechos fundamentales del mercado, a lo que hay que añadir otro tipo de hechos, los que definen cómo son los compradores y consumidores. Más adelante, explicaremos la importancia de los comportamientos y cómo enfocaremos el tratamiento de los mismos en una perspectiva de segmentación no convencional.

Pero, el potencial de una marca depende de su posición y de la posición de sus competidores. La posición de una marca se fija en un plano, en dos dimensiones, por tanto: la notoriedad y el prestigio. Estas dimensiones son del orden de los impactos: las marcas interactúan con los públicos y logran o no formar parte de su universo de elecciones posibles y logran o no apropiarse diferencialmente de ciertos atributos que les confieren un valor más o menos grande. La medida de los impactos involucra una cuestión metodológica con gran importancia práctica, que concierne al proceso cognitivo más importante en la interacción del individuo con el entorno, la percepción. Trataremos también esta cuestión en el apartado metodológico.

Ahora bien, comportamientos e impactos se desenvuelven sobre un telón de fondo que son las Ideas presentes en los públicos que se refieren al producto y a las propias marcas. De cómo tratar las ideas, que son de naturaleza estructural (cualitativa) en el marco de un estudio cuantitativo trataremos igualmente en el capítulo metodológico.

Por último, comportamientos que se traducen en experiencias (jalonadas de impactos perceptibles) y que se estructuran en relación con las ideas preconcebidas, quizás modificándolas, generan determinadas actitudes, disposiciones positivas o negativas a hacer algo o a elegir algo. Tales actitudes están íntimamente, pero no mecánicamente, asociadas a nuevos comportamientos y tienen un cierto y apreciable valor predictivo a la hora de evaluar el potencial de mercado. En este grupo de objetos de estudio, podemos incluir también las preguntas que sean pertinentes sobre preferencias de compra y consumo.

¿Por qué adoptar un enfoque u otro? -Metodología-

De los objetos de estudio que hemos considerado en el parágrafo anterior, todos son de naturaleza casuística excepto el tercero: las Ideas. Las ideas son estructuras, para su comprensión no es relevante la casuística y, por tanto, el enfoque de investigación que les es propio es el estructural o cualitativo.

Ahora bien, evaluar el potencial de mercado requiere por encima de todo cuantificaciones y, por tanto, debe focalizarse sobre lo que es medible, esto es, Hechos, Impactos y Actitudes. Por otra parte, si bien las ideas no son comprensibles cuantitativamente, sí son abordables en sus síntomas, para lo cual es útil el enfoque de lo que se conoce como frames por influencia de George Lakoff, que son metáforas que condensan posiciones estructurales en el campo de las ideas. Mediante estos frames sí se pueden medir posiciones que conciernen al telón de fondo de las ideas, que nos pueden ayudar a efectuar mejores segmentaciones y a entender mejor los comportamientos mediante correlaciones.

En consecuencia, nuestro enfoque inicial será cuantitativo. Para un cuestionario correctamente construido, no necesitamos exploraciones cualitativas previas, pues las preguntas deben depender sobre todo de cómo son los objetos: por ejemplo, la percepción, que es el proceso cognitivo que procesa los impactos producidos en la interacción con los público, articula un signo y una intensidad (percepción más o menos negativa o positiva) y una interpretación (que sustenta, para cada sujeto, su percepción; por ejemplo, valoro mal la marca X porque me parece que tiene un estilo antiguo) y cualquier pretensión de indagar de otro modo sobre este objeto singular que es la percepción sólo producirá ruido.

Empero, cuando dispongamos de la evaluación del mercado en las dimensiones estudiadas, nuestro cliente deberá decidir cómo situarse en ese mercado, en caso de que el potencial le induzca a ello. Y, para situarse, deberá comprender las claves de comunicación, entendiendo el término en un sentido muy general, que le permitirán conectar adecuadamente con los públicos. En ese punto, se hace máxima la utilidad de un estudio cualitativo y se hace máxima su eficiencia, ya que no se tratará de un estudio genérico y extenso, exploratorio, sino de una indagación concreta, limitada y focalizada sobre los elementos concretos del laberinto del mercado que, en función de la información cuantitativa y del conocimiento experto, vayan a producir mayor rendimiento.

¿Cómo hacer un Análisis de datos? -Diseño técnico-

Los datos que manejaremos serán de dos tipos: por un lado, dispondremos de información que nuestro cliente tiene en sus repositorios administrativos y que no explota, salvo para propósitos administrativos. Se trata de la información sobre los hechos de su negocio de retail, en el que la nueva marca se insertaría. Tales hechos están reflejados en los tickets de compra digitalizados en su red de tiendas. Los registros correspondientes atesoran una información valiosísima, de los últimos años (desde que el cliente digitalizó sus cajas registradoras), en una cuantía enorme (Big Data), que contiene información relativamente fácil de procesar, articulando tres planos: el espacial (dónde), el temporal (cuándo) y el fenomenológico (qué, con qué, cuánto, a qué precio, con qué descuento, qué medio de pago…).

Por otro lado, necesitamos información general del comportamiento de los públicos y de sus percepciones, que no está disponible en ningún corpus de datos accesible. Esto nos desplaza al campo de la producción ad hoc de datos, que, generalmente, abordaremos mediante observación o, de forma más común, mediante formularios aplicados mediante muestreo estadístico, lo que nos permitirá elevar los datos a la población.

El análisis de los datos masivos sobre el detalle de cada venta de nuestro cliente en su red de tiendas, los abordaremos mediante reglas de asociación, una técnica orientada a identificar patrones de comportamiento, es decir, el modo en el que los consumidores compran, las combinatorias que utilizan… Tales patrones permitirán segmentar: no segmentaremos consumidores, que son difusos, debido a la enorme variedad de su comportamiento (lo cual es intrínseco al consumo), sino actos de compra, que son claros y distintos y remiten a situaciones.

No obstante, siempre deberemos tener en cuenta la necesidad de una fase de pre procesamiento, que es la que nos permitirá disponer los datos de forma óptima para la aplicación de cualquier algoritmo analítico. Con frecuencia, esta operación consumirá una parte importante de los recursos del proyecto.

Para la producción ad hoc de datos, deberemos diseñar una encuesta a la población de consumidores, lo cual exigirá precisar una serie de características del dispositivo técnico:

  • La población de referencia (sexo, edad, ámbito territorial…)
  • La estratificación de la población (territorial)
  • La distribución de la muestra (proporcional o no)
  • El sistema de muestreo (aleatorio y probabilístico o no)
  • El método de muestreo
  • El canal de acceso a la muestra (por ejemplo, un panel online)
  • El tamaño de la muestra
  • El margen de error de muestreo, preciso u orientativo, según se cumplan o no las condiciones técnicas propias de un muestreo aleatorio.
  • El control de calidad de los datos.
  • El análisis de los datos

Una cuestión relevante para el análisis de los datos es el tratamiento de un tipo de objeto al que antes hemos aludido: los impactos, que se procesan cognitivamente a través de la percepción. Es muy relevante describir el modo en que este objeto debe ser abordado, tanto en la producción del dato como en el análisis. La percepción es importante porque registra el impacto de conflictos, que colocan a la oferta (nuestro cliente) en riesgo. Disponer de un cuantificador de riesgo es, entonces, crucial y este un elemento muy importante de nuestra oferta: cuantificar el riesgo, para evaluar la posición de una marca o de un servicio o de un producto, registrar las interpretaciones de los consumidores sobre sus experiencias (fuentes de riesgo) y ponderarlas por su impacto en el riesgo total, para poder tomar las mejores decisiones, las que reducirán más el riesgo de la marca.

¿Por qué es importante analizar datos? Ventajas del análisis de datos

La realidad se digitaliza continuamente y cada vez más. Hasta el punto de que no sólo lo digitalizado constituye una realidad diferente, una meta-realidad, sino que ciertas representaciones digitales pasan por realidades en sí, que recubren cualquier referencia a algo previamente existente.

La facilidad de procesamiento que procuran los datos impulsa la digitalización. Primero, la ventaja era almacenarlos y hacerlos accesibles; cada vez más, el valor se desplaza hacia el procesamiento, si es en tiempo real, Fast Data, mejor.

Pasos para hacer un análisis de datos

El análisis de datos es posible y valioso bajo ciertas condiciones necesarias: los datos tienen que ser accesibles y no estar dominados por el ruido. En consecuencia, debemos establecer algunos pasos fundamentales en el proceso:

  • Acceso a los datos. Para el acceso a los datos, disponemos de distintas herramientas que nos permiten entrar en los repositorios, sean web, cloud o servidores con acceso remoto. Una innovación muy interesante para el acceso a los datos está constituida por las APIs, pequeños programas que los propietarios de los datos implementan para dar acceso a sus proveedores de servicios de datos con seguridad y agilidad.
  • Lectura de los datos. Los lenguajes más utilizados para el procesamiento de datos, como R y Python, disponen de funciones capaces de leer prácticamente cualquier formato en el que estén almacenados los datos: SQL, Excel, SPSS, SAS, Oracle, JSON, XML, …
  • Limpieza de los datos. Esta tarea, orientada a reducir el ruido y a mejorar la calidad primaria de los datos, puede exigir muy variadas operaciones concretas y es siempre necesaria en el pre-procesamiento de los datos. Debe dedicarse todo el esfuerzo que requiera una buena limpieza, so pena de chocar más adelante con obstáculos insalvables para obtener valor.
  • Organización de los datos. La organización de los datos es una tarea importante, también, para que podamos después concentrar toda la atención y los recursos en producir el máximo valor en el procesamiento.
  • Exploración de los datos. Un enfoque exploratorio es siempre necesario, pero en el campo Big Data, donde solemos trabajar con datos cuya producción no ha sido intencional y dirigida a un propósito analítico, cobra una importancia mucho mayor, pues, si se iniciase el procesamiento sin una exploración previa detallada, el riesgo de perder buena parte del potencial de los datos sería importante. A menudo, una exploración que introduzca herramientas de visualización será más fácil y rápida.
  • Análisis de datos. Cuando hayamos resuelto el acceso a los datos (sobre todo en el caso de que debamos implementar un refresco frecuente de éstos) y los tengamos limpios y bien organizados, el proceso de exploración, el conocimiento y la experiencia nos orientarán hacia un plan de análisis, en el que generalmente utilizaremos distintas técnicas alternativas, sean de tipo estadístico o de machine learning o de ambos tipos; y sean con propósitos descriptivos, explicativos o predictivos. Un plan de análisis es necesario, pero también un conocimiento amplio de las técnicas, para poder afrontar con garantías análisis no previstos, que en el proceso pudieran revelarse como convenientes.
  • Visualización de datos y resultados. La visualización tiene un primer papel relevante en la fase exploratoria, como señalamos más arriba. Y, sin duda alguna, tiene un papel fundamental a la hora de interpretar los resultados por parte del analista o de terceros y a la hora de presentar los resultados y hacerlos accesibles a sus usuarios.
  • Por último, en nuestra estrategia de investigación hay, como hemos explicado, un elemento fundamental al que todo debe estar subordinado, el propósito. Mal podríamos servir al propósito si abandonásemos la tarea en la presentación de resultados. Es necesario analizar los resultados en términos del propósito para el cual trabajamos. Realmente, es necesario, por lo general, desplegar un doble juego: de análisis y de interpretación. Al final del proceso, tendremos algunas conclusiones y algunas preguntas, pues no hay conocimiento cerrado que cancele las preguntas planteadas sin producir otras nuevas.

Tipos de análisis de datos

El análisis de datos puede tipificarse, pero en nuestro enfoque consideramos más adecuado considerar los tipos de análisis como fases de un proceso, puesto que finalmente, insistimos en ello de nuevo, debemos responder en relación con un propósito – guía que no podemos dejar a un lado en ningún momento.

El análisis, en una perspectiva amplia y global, comienza en la selección de los datos, si es que disponemos de opciones para ello; continúa en todo el pre – procesamiento, donde tomaremos algunas decisiones que condicionarán los pasos posteriores, más específicamente analíticos.

El proceso analítico se intensifica y se hace más específico en el análisis exploratorio, aunque aún no se haya planificado todo el proceso.

En la fase central del procesamiento, desde el punto de vista analítico, es donde el análisis de datos se despliega en una tipología más variada:

  • Desde el análisis más descriptivo, utilizando técnicas estadísticas (por ejemplo, para establecer algún grado de significación estadística de diferencias en ciertos estimadores) u otro tipo de operaciones matemáticas, pasamos a…
  • Análisis multivariables orientados a obtener dimensiones subyacentes en los datos, patrones o regularidades o clasificaciones de objetos o registros, con un propósito tanto descriptivo como comprensivo.
  • Algoritmos de machine learning, o aprendizaje automático, generalmente orientados a descubrir patrones de asociación o clasificación que tengan una validez general, más allá de la casuística concreta de nuestro corpus de datos.
  • Pero, si somos capaces de obtener patrones con validez general (en un cierto espacio acotado), podremos, con algunas limitaciones, efectuar predicciones. Es preciso señalar que la predicción no puede ser garantizada en términos de la precisión obtenida en la validación de un algoritmo, puesto que nuevos datos introducirán cambios más o menos importantes, pero sí tendrá gran utilidad, generalmente, si la usamos para simular efectos de distintos escenarios o de cambios en las variables independientes. La simulación nos puede permitir con más fiabilidad que la predicción tomar decisiones correctas.

¿Qué técnicas estadísticas y de análisis de datos son las más populares?

Bajo la estrategia descrita al principio de este texto, en la cual el diseño técnico tiene un lugar preciso, podemos hablar de Técnicas. Debemos remitirnos, en primer lugar, a los tipos de análisis, pues cada uno de ellos tiene algunas técnicas que permiten desplegarlo con efectos significativos sobre el valor de los resultados.

Las técnicas estadísticas son enormemente variadas, pero lo más importante es saber que para ser aplicadas correctamente deben operar sobre datos capaces de representar un marco del que podamos conocer una de dos cosas: o bien características relevantes, que nos permitan calibrar los datos; o bien un sistema de producción de los datos que nos permita asegurar, por su carácter probabilístico, que representan bien dicho marco.

Si se verifica alguna de estas condiciones, estaremos en condiciones de aplicar algunas técnicas, que seleccionaremos según la naturaleza de los datos (ej: si los datos son temporales o no, si son cuantitativos o cualitativos…), principalmente orientadas a falsar hipótesis, para lo cual utilizaremos o bien un enfoque frecuentista (p-valores, intervalos de confianza) o probabilístico (Bayes).

Big Data ha relegado en parte, y estimamos que provisionalmente, a las técnicas estadísticas, debido a dos características muy frecuentes de los datos masivos: la primera es que en muchos casos no estamos en condiciones de aplicar aquellas por ausencia de las condiciones que les dan sentido matemático preciso (no sólo aparente); la segunda es que la cantidad de datos permite desplegar análisis mucho más detallados y algoritmos más complejos, utilizando submuestras (un gran número de ellas, incluso) para mejorar la validación de tales algoritmos, trabajando sobre todo en beneficio de la validez interna del análisis, tomando de facto el corpus de datos como marco pertinente del análisis, supuesto que debe utilizarse siempre con grandes cautelas.

En esas condiciones, Big Data ha promovido la elaboración de muy variadas técnicas de gestión de los datos, de asociación y de clasificación, algunas como producto de una adaptación de técnicas ya conocidas en el análisis estadístico convencional. Las más populares son:

  • Para la gestión de los datos, el procesamiento paralelo y el procesamiento paralelo y distribuido
  • Para el tratamiento estadístico: contraste de hipótesis en las más variadas situaciones (p-valores e intervalos de confianza, probabilidad condicionada)
  • Para machine learning, Regresiones lineales, Regresión logística, Árboles de decisión y Random Forest, Bagging y Boosting, Máquinas de Vector Soporte, Naive Bayes, Redes Neuronales, Reglas de asociación.
  • Para Deep learning, Redes Neuronales Convolucionales.