IBM SPSS Data Preparation

Cuente con una poderosa y flexible herramienta de preparación de datos, la cual, acelerará los análisis que realice y dará mayor precisión a sus pronósticos.  Ahorre horas en tareas que podrá replicar y automatizar a voluntad, incorporando las más modernas técnicas para manipulación, imputación y transformación de datos.

Con el módulo adicional IBM SPSS Data Preparation podrá identificar fácilmente casos, variables y valores de datos sospechosos o inválidos, ver patrones de datos perdidos, resumir distribuciones de variables y trabajar más con mayor precisión con algoritmos diseñados para atributos nominales. Esto permite agilizar el proceso de preparación de datos, de modo que sus datos estarán listos para el análisis más rápidamente, obteniendo como resultado conclusiones más precisas.

IBM SPSS Data Preparation esta disponible para su instalación como cliente, pero para un mayor rendimiento y escalabilidad también está disponible como arquitectura cliente servidor con IBM SPSS Statistics Server.

Realice comprobaciones de datos

Típicamente la validación de datos ha sido un proceso manual. Es posible ejecutar una frecuencia de los datos, imprimir dichas frecuencias, marcar lo que debe ser corregido y controlar los identificadores de casos. No hace falta decir que esto lleva mucho tiempo. Y puesto que cada analista de la organización podría usar un método ligeramente diferente, mantener la consistencia de un proyecto a otro puede resultar un reto.

Para eliminar los controles manuales, use el procedimiento de Validación de datos. Este procedimiento le permite aplicar reglas para realizar comprobaciones de datos basadas en el nivel de medida de cada variable (categórica o continua).

Con este conocimiento usted puede determinar la validez de los datos y eliminar o corregir los casos sospechosos a su discreción antes del análisis.

Encuentre rápidamente atípicos multivariantes

Prevenga resultados atípicos a raíz de la existencia de valores extremos utilizando el procedimiento de Detección de Anomalías (Identificar Casos Atípicos). Este procedimiento busca casos inusuales basándose en las desviaciones de casos similares, entregando las razones que explican tales desviaciones. Usted puede marcar los valores atípicos mediante la creación de una nueva variable. Una vez que se han identificado los casos inusuales, puede revisarlos y determinar si deben ser incluidos en el análisis.

Preparación previa del proceso de datos para la construcción del modelo

Con el fin de utilizar los algoritmos que están diseñados para atributos nominales (como Naïve Bayes y modelos logit), debe crear rangos para sus variables de escala antes de la construcción del modelo. Si las variables de escala no están separadas en rangos, los algoritmos, tales como la regresión logística multinomial, demorarán mucho tiempo en ejecutar sus procesos o tal vez los datos no convergirán; sobre todo si el conjunto de datos es muy grande. Adicionalmente, los resultados que obtenga pueden ser difíciles de leer o interpretar.

Con este procedimiento, puede seleccionar entre tres métodos de creación de rangos para el preprocesameinto de datos previo a la construcción del modelo

  • No supervisado — Crear rangos con igual número de casos
  • Supervisado — Toma en cuenta la variable optimizadora para determinar los puntos de corte. Este método es más preciso que el método “sin supervisión” o “no supervisado”, sin embargo, también supone un proceso informático más intensivo
  • Enfoque Híbrido — Combina los enfoques “Supervisado” y “No Supervisado”. Este método es especialmente útil si tiene una gran cantidad de valores distintos.

Whitepapers y brochures