3 Gestion de Calidad de Datos
-
Upload
cristina50 -
Category
Documents
-
view
1 -
download
0
Transcript of 3 Gestion de Calidad de Datos
2
Calidad como “Way of life”
Estamos en la era de la calidad, y es esta la que nos dará una ventaja competitiva, en un mundo globalizado
3
Aunque…
En cualquier proceso de calidad Cuanta más inversión de tiempo, mayor calidad, pero nunca se llega al 100%
Cali
dad
Tiempo
4
Agenda Evolución de la calidad de los datos Calidad de datos en entornos analíticos DWH ¿Cómo aplicar la calidad de datos? Otras áreas de aplicación Conclusiones y recomendaciones
6
Historia de la Calidad de Datos Desde que existen los datos informatizados, siempre ha
existido la preocupación de que sean correctos. Inicialmente la Calidad de Datos se realizaba con edición manual o con programas desarrollados con lenguajes no adaptados para ese uso, o incluso la edición manual de los datos.
A principios de los 80 se desarrollaron los primeros sistemas de Calidad de Datos, por parte del gobierno de Estados Unidos, para regular los cambios de domicilio, fallecimientos, bodas, divorcios, etc en un sistema denominado NCOA (National Change of Address Registry)
La primera vez que se implemento un sistema especializado en la calidad de datos en España fue para corregir y/o informar el código postal, en la dirección de los clientes, de las principales entidades financieras del país. Este fue desarrollado a principios de los 90, basado en un sistema semiautomático, y apoyado por un departamento de codificación manual, en el que se utilizaban multitud de listados en papel. La técnica utilizada era muy primitiva (fuerza bruta), y no implementaba las metodologías, que actualmente poseen los sistemas modernos de calidad de datos.
7
Definiciones de “Data Quality” “Data Quality refers to the quality of data. Data are of high
quality if they are fit for their intended uses in operations, decision making and planning"
2. The state of completeness, validity, consistency, timeliness and accuracy that makes data appropriate for a specific use. Government of British Columbia
3. The totality of features and characteristics of data that bears on their ability to satisfy a given purpose; the sum of the degrees of excellence for factors related to data. Glossary of Quality Assurance Terms”
www.wikipedia.org
8
¿Qué es la calidad de datos?
La Calidad de Datos no sólo se refiere a la ausencia de defectos:
Los datos deben proporcionar una visión única
Debe estar correctamente relacionada e interrelacionada con todas las fuentes
Los datos deben ser consistentes, completos y adecuados para su función
Debemos asegurarnos de cumplir normativas y leyes
10
Impactos de Negocio
Incrementode CostesPérdida ingresos
MayorRiesgo
Baja confianza
•Detección y corrección•Prevención•Reingeniería de procesos•Penalizaciones•Sobrepagos•Recursos incrementados•Retrasos•Cargas de trabajo•Tiempos de proceso
•Cobro ineficiente•Mala relación con el cliente•Pérdida de oportunidades•Aumento de costes
•Riesgo en el cumplimiento normativas•Sistema de gestión del riesgo•Sistema de integración del riesgo•Riesgo en la inversión
•Riesgo competitivo•Detección del fraude•Riesgos legales (LOPD)•Otros riesgos
•Falta de credibilidad•Temor en toma decisiones•Menor predictabilidad
•Forecasting incorrecto •Reporting ineficiente
12
Futuro inmediato de la Calidad de Datos
Los problemas de Calidad de Datos son a menudo ignorados / desconocidos / minusvalorados por la dirección
Calidad de Datos es una ventaja competitiva
Falta de una figura responsable Se requieren cambios
organizativos Una compañía debe contar con
responsables que velen por la calidad de los datos de todos los sistemas de información.
13
Otros conceptos: Calidad de la Información
El concepto Calidad de la Información, o IQ, está surgiendo con fuerza en los últimos años
Se trata del concepto de Calidad de Datos orientado a los Sistemas de Información, es decir, a la mejora de la información proporcionada a la compañía
Algunos expertos extienden el término a lo que también se denomina “Calidad de Metadatos”
14
Otros conceptos: Calidad de Metadatos
El concepto Calidad de Metadatos surge en grandes corporaciones que cuentan con miles de atributos e indicadores
Se trata de una problemática de integración y/o de herramientas de gestión de metadatos, no de Calidad de Datos en sí
Objetivos: claridad de las definiciones, lenguaje común, única versión de la verdad, accesibilidad, disponibilidad, seguridad, auditabilidad.
15
En que momento se producen los errores
En la entrada de datos (Data Entry)
Incorporación de datos externos
Errores de carga de los sistemas transaccionales
Migraciones de datos
16
Causas de la creciente mala Calidad de Datos
Más datos de más fuentes en más sistemas ERPs, fuentes externas, web, call centres
Datos introducidos para un propósito ahora está siendo aplicados a otras aplicaciones La Calidad de Datos puede ser relativamente
bueno para los sistemas transaccionales pero no para sistemas BI o CRM
Mayores niveles de Calidad de Datos requerido para procesos automatizados La mala calidad de datos lleva a problemas
de pagos en sistemas ERP, SCM, etc.
Mayor sensibilidad del público Los clientes esperan un mejor servicio. Los
datos defectuosos llevan a una pobre gestión del cliente.
17
El impacto de la mala Calidad de Datos Impide la Business Intelligence
Informes erróneos, defectos en el análisis
Costes de Gestión Discrepancias entre aplicaciones puede requerir trabajos
de reconciliación de registros
Daña nuestra relación con el cliente Imposibilidad de ofrecer un buen servicio y un trato
personalizado
Imposibilidad de detectar fraudes, sobrepagos, etc No puede identificar duplicados, unidades familiares y
corporativas (households), etc
Incumplimiento de normativas Regulaciones Leyes: La calidad de datos es uno de los pilares
fundamentales para el cumplimiento de la LOPD
20
DWH-BI
“Through 2007, more than 50 percent of data warehouse projects will have limited acceptance, or will be outright failures, as a result of a lack of attention to data quality issues” Gartner
La toma de decisiones basada en datos incorrectos puede generar decisiones incorrectas.
Concepto: Calidad de la InformaciónBeneficios de la Calidad de Datos: Mejora de la toma de decisiones Aumento de la confianza de los usuarios
21
Soluciones de Calidad de Datos - Arquitectura
Diccionarios
Runtime
Cuadros de Mando Calidad de Datos
AplicacionesBases de Datos
Cliente
Realtime / SOA
Servidor
Repositorio
Soluciones integración
Runtime
22
La (r)evolución, Calidad de Datos e Integración
Auditoría, control y creación de informesGarantizar la coherencia de los datos, realizar análisis de
impacto y supervisar constantemente la calidad de la información
AccesoA cualquier sistema, por lotes o en tiempo real
EntregaIntegraciónEntregar los datos adecuados en el momento y forma adecuados
Transformar y conciliar datos de todo tipo
CalidadPerfiladoValidar, corregir y estandarizar, relacionar datos de todo tipo
Buscar y perfilar cualquier tipo de datos de cualquier fuente
Desarrollo y gestiónDesarrollar y colaborar con un repositorio común y
metadatos compartidos
23
Calidad de Datos, ¿Donde actúa? ETQL
…………
ReportingCalidad
Calidad de Datos• Conciliación fuentes• Lógica difusa• Scorecarding• Limpieza• Enriquecimiento
Servidor DQ
Fuen
tes
de
datos
Inteligenc
iaAlma
cena-
mien
toIntegr
ación
de dat
os
Exploración: Análisis & Medición
Front End Y
Aplicación X
Data MartBBDD DataWarehouse
Aplicación
OperationalData Store
Reporting
Visión únicadel clienteo producto
CRM Finanzas Datos no estructurados
Sistemasexternos Etc …
Extracción
Transformación
Carga
25
Requerimientos de Calidad de Datos
Fuente: Gartner Jun. 2007
Eficacia del
Contacto
Identificación de
relaciones
Calidad de Datos
General
Análisis de Calidad de Datos (perfilado
)
Suite de Calidad de Datos Corporativa
Limpieza, estandarización, identificación de datos personales, como nombres, direcciones y teléfonos
Localizar relaciones entre registros, como desduplicación, relación de dos o más tablas, detección de unidades familiares o corporativas, …
Calidad de Datos para cualquier área incluyendo finanzas, control de gestión y producción
Perfilado, medición y cuantificación del impacto de la calidad de datos, además de su seguimiento y monitorización
26
Data Experts / Owners definen iniciativas de
corrección
Ciclo de vida de un proyecto de Calidad de Datos
Informes
Definir reglas de negocio para:
Conformidad Consistencia Normalización Desduplicación
implementar las reglas
Data Experts / Owners validan informes
1
2
3
4
5
6
Fuentes DestinosAuditar Entregar
Ciclo de vidaAcceder Limpiar
Auditar paraconocer
28
Perfilado de datos
El perfilado de datos permite localizar, medir, monitorizar y reportar problemas de calidad de datos
El perfilado no debe ser sólo el inicio de un proyecto de Calidad de Datos, es un proyecto en sí
Existen dos tipos de perfilado: Perfilado de estructura Perfilado de contenido
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
29
Perfilado de Estructura
El perfilado de estructura consiste en el análisis de los datos sin tener en cuenta su significado
El análisis se realiza de forma semi-automática y masiva
Tipos de análisis del Perfilado de Estructura: Perfilado de Columnas Perfilado de Dependencias Perfilado de Redundancias
30
Perfilado de Contenido
El perfilado de contenido analiza con profundidad el dato y su significado
Requiere una configuración para cada campo a analizar
Se combina con el uso de diccionarios, componentes específicos de tratamiento de datos, separadores, etc
31
Etapas del Perfilado de Datos
NivelActividadPerfilado
Tipo de Actividad
Descubrir Limpiar EntregarAcceder Integrar
Proyecto dedescubrimiento IntegraciónTipo de
proyectoLimpiezaMonitorización
ImplantaciónValidación
Descubrimiento
Analista
Análisis de Contenido
Data Steward
Análisis de estructura
DesarrolladorETL
Monitorización
Cuadro de Mandos Calidad de Datos
Operaciones TIRoles
P. Estructur
a
P. Estructur
a
P. Contenido
P. Estructur
a
32
Perfilado de datos, indicadores de calidad
Existencia ¿Qué dato falta o no es útil?
Conformidad¿Qué dato está almacenado en un formato no estándar?
Consistencia¿Qué datos aportan información conflictiva?
Precisión ¿Qué datos son incorrectos o están caducados?
Duplicados ¿Qué datos o atributos están repetidos?
Integridad ¿Qué información no está referenciada?
33
Ejemplo Datos de Cliente
EXISTENCIA CONFORMIDAD CONSISTENCIA DUPLICACION INTEGRIDAD PRECISION
ID_CLI CLIENTE TIPO DIRECCION CIUDAD PO ST PAIS ESTADO TELEFONO VENTAS ULT_PED763113 Avalon Asesores S.L. Em p Espa#a Inactivo 713452118 0 12/12/2004763114 DEUTSCHE BANK G ROUP Em p Ronda General M itre 72-74 Barcelona 08017 España Activo 936531223 45700 01/03/2006763115 Julián G arcía Ruiz Part C/ Fco Suárez 21 Valladolid 99999 España Activo 983211245 79200 01/02/2006763116 BM W Em p Calle Eduardo Dato 8, 1ºA M adrid 28010 España Activo 914567321 0 18/07/2003763117 M anuel Fernandez G arcía Part Calle Velez Rubio 2, 5ºizd M adrid 08033 España Activo 914669822 6950 26/02/2006763118 Ram ón Alfonso Gutierrez Part Avda Diagonal 133 Barcelona 08012 España Activo 93566321 32080 08/08/2006763119 Electrolux G roup Em p Castellana 125 M adrid 28017 España Inactivo 916778229 0 05/03/2004763120 ENDESA Em p Ribera del Loira, 60 M adrid 28027 España Activo 915448488 5000 06/03/2006763121 FO RD M OTO R Em p Bilbao 48002 España Inactivo N/D 0 07/07/2004763122 Grupo FERRO VIAL Em p López de Hoyos, 35 M adrid 28002 España Activo 916513450/51763123 DEUTSCHE BANK Em p Ronda General M itre 72 Barcelona 08017 España Activo 936531225 41200 16/02/2006763124 Eurom aster S.A. Em p Bolivia 18 Zaragoza 50010 España Inactivo 973214566 01/08/2005763125 Arcosa Sociedad Anónim a Em p JO SE LANDAZURI 15, BJ Vitoria 01008 España763126 Banco Popular Part SALVADOR ASPIAZU, 12 Vitoria-G azteiz 01008 España Activo 942113566 500 05/04/2006763127 VOLVO G ROUP Em p CARROTA NAVARRETE, 31 M álaga 29676 Spain Activo 954345543 54211 31/01/2006763128 YAM AHA M OTOR IBERICA Part Alm agro 37 M adrid 28012 España Activo 913102919 05/12/2005763129 Jorge Luis VILLAR TAPIAS Iturriaga 69 Bilbao 48004 España Inactivo Ext 331 39020 04/04/2006763130 BBVA Em p Ciruela 23, 4º Esc 2 Ciudad Real 13001 España Activo 926521134 950 20/04/2006763131 AXA AURORA Em p Castellana 131 28013 España Inactivo 915411345 0763132 Grupo Renault (M adrid) Em p Zurbano 3 M adrid 28010 España Activo 913555219 7800 05/10/2005763133 BANCO BILBAO VIZCAYA Em p Paseo de Recoletos 7 M adrid 28012 España Activo 915442119 6700 02/03/2006763134 Lunas y Cristales Lagari S.L. Em p DO CTO R NEQUI 10, 1 Andorra la Vella 00000 Andorra Activo 376828733 45000 30/11/2005763135 El Corte Inglés Em p Calle G oya 4 M adrid 28011 España Activo +34913455119 57890 13/04/2006763136 RO CA Em p Av Industria 6 Alcobendas M adrid 28108 España Activo 9186631234 4500 19/04/2006763137 M ario Gom ez Rey Em p Carlos III 20 Cordoba España Activo 957525566 0 01/08/2005763138 Luisa G arcía M onteiro Part Arbotante 2, 5º 1ª Sevilla 28010 España Activo 952114675 2500 21/01/2006763139 M anuela M artín López Em p Llobatona 6ºF Viladecans 08840 España Inactivo 934566211 0 13/03/2003
35
Ejemplo datos de Riesgo
For illustration purposes only. Actual reports featured later in presentation
EXISTENCIA CONFORMIDAD CONSISTENCIA PRECISION DUPLICACION INTEGRIDAD
38
Limpieza y Enriquecimiento de datos
La limpieza de datos permite: Determinar y separar elementos
de un campo situándolo en su lugar correspondiente
Estandarizar formatos Corregir errores en los datos Enriquecimiento de datos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
39
La determinación y separación de datos consiste en la descomposición de los distintos elementos que componen los datosPor ejemplo, el nombre siguiente:
Ingeniero JOSE RODRIGUEZ SILVA
Título: IngenieroNombre: José 1º Apellido: Rodríguez
2º Apellido: Silva
Determinación y separación de Datos (parsing)
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
40
La estandarización es la adecuación de un dato a un formato esperado.Por ejemplo, el NIF siguiente:
5428846
NIF estandarizado: 05428846H
Estandarización
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
41
La corrección consiste en el reemplazo de un elemento erróneo por uno correctoPor ejemplo, la dirección siguiente:
Calle Tumaco 14, 28010 Madrid
Código postal corregido: 28027
Corrección
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
42
El enriquecimiento consiste en la adición de datos que no existíanPor ejemplo, el nombre siguiente:
Jose María Gomez Hurtado
Sexo: Varón
Enriquecimiento
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
43
Matching
El matching de datos se utiliza para: Detección de duplicados Relación entre dos fuentes de
datos que no tienen campos de unión entre sí
Detección de unidades familiares y corporativas (Householding)
Se pueden aplicar múltiples criterios para las relaciones, que posteriormente se pueden asociar entre sí
Previo al matching es conveniente hacer una pre-agrupación de la información
Existen dos métodos de matching: Determinístico Probabilístico
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
44
Pre-Grouping
Código
Nombre Group Key
A Juan Gutierrez G36B Juan Manuel
GutierezG36
C Juana Gutierrez Gomez
G36
D Luis Fernandez F16E Luis Alberto
FrenandezF16
F Luis Fernandes F16G Luis Fernandez
GomezF16
Sin Agrupación: A-B, A-C, A-D, A-E, A-F, A-G, B-C, B-D, B-E, B-F, B-G, C-D, C-E, C-F, C-G, D-E, D-F, D-G, E-F, E-G, F-G=21 comparaciones
Con agrupación fonética 1º apellido: A-B, A-C, B-C, D-E, D-F, D-G, E-F, E-G, FG= 9 comparaciones
Comparaciones sin pre-grouping
Comparaciones con pre-grouping
45
Matching DeterminísticoRazón Social CIF CCC Dirección Teléfono PoblaciónLABORATORIOS EVA ESPAÑOLA SL
08070271716 SAN LUIS 90 3116311 Barcelona
Razón Social CIF CCC Dirección Teléfono PoblaciónEVA ESPAÑOLA,S.L
B08093577 08010271716 SANT LLUIS 9
933116311 Barcelona
EVA SANT LLUIS 90
SANT LLUIS 9
EVA
933116311
933116311
{ }
SI coincide(Razón) y coindice(calle) y coincide(teléfono) y
noesdistinto(CIF) entonces: Match positivo
46
Matching ProbabilísticoRazón Social CIF CCC Dirección Teléfono PoblaciónLABORATORIOS EVA ESPAÑOLA SL
08070271716 SAN LUIS 90 3116311 Barcelona
Razón Social CIF CCC Dirección Teléfono PoblaciónEBA ESPAÑOLA,S.L
B08093577 08010271716 SANT LLUIS 9
933116311 Barcelona
EVA SANT LLUIS 90
SANT LLUIS 9
EBA
933116311
933116311
80% { } 92% 50%100% 100%
SI media ponderada>90% entonces match
positivo
100%
92%
47
Consolidación
Cuando se ha usado el matching para la detección de duplicados, con frecuencia se desea fusionar estos registros. A esto se le denomina Consolidación.
Existen dos métodos principales de consolidación:
Registro Superviviente Mejor Registro
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching Perfilado de Datos
Limpieza de Datos
Mejora de datos
Matching
D atos
51
Aplicaciones del DQ en las compañíasLas principales tipologías de proyecto de DQ son: Calidad de Datos asociada a un proyecto de integración
DWH-BI CRM Data Mining Migración Consolidación Sincronización
Entorno Financiero Entornos de Marketing Sistemas de Información Geográfica Gestión de Datos Maestros Calidad de Datos Preventiva
52
Requerimientos por tipo proyecto
High
Low
AnálisisCalidad Datos
Calidad DatosGeneral
Low
Identificaciónde relaciones
High
Low
Eficiencia del contacto
High
Low
Madurez Visión Corporativa
EDQM
High
Soluciones Verticales. P.ej. SOX, Basilea II, GDS RFID
MDM – Gestión de Datos Maestros
CDI – Integración de Datos de Clientes
SvoC (Visión Única del Cliente)
Proyectos integración: p.ej: Migraciones, CRM, Datawarehouse
Marketing (mailshots)
Data Governance
54
Resumen
En resumen:
La Calidad de Datos es fundamental para cualquier compañía
Ahorro de costesEficienciaCumplimiento de la Ley
Existe la tecnología y la metodología para corregir la mala Calidad de Datos
Calidad e Integración: una Solución Corporativa
55
Corrige errores de manera PROACTIVA e INDUSTRIALIZADA Reducción de costes: de gestión, de oportunidad,
operacionales, etc Proporciona una visión única de los elementos de las bases de
datos y da visibilidad de las posibles agrupaciones que existan
Facilita el cumplimiento de normativas Mejora el mantenimiento de clientes y del servicio ofrecido,
además da confianza a los usuarios de la información Reduce las ineficiencias operacionales Maximiza el éxito de las iniciativas y proyectos de
Datawarehousing, CRM y BI y por consiguiente se mejora la toma de decisiones
Aumenta el conocimiento de los datos y permite conocer dónde se están produciendo los errores
Resumen Beneficios de la Calidad de Datos
56
Predicción: A través de 2008, las organizaciones incrementarán las iniciativas de mejora de la calidad de datos, llevados por la presión de las normativas, por el deseo de la mejora de la eficiencia y agilidad, y una insatisfacción general del estado de sus datos corporativos
Claves: Organizaciones donde la gerencia de alto nivel comprende el impacto de la calidad de datos están mejor posicionados para completar con éxito programas de mejora de calidad de los datos.
Implicaciones de mercado: los datos de alta calidad (y los conocimientos, organización, procesos y tecnología para lograrlos) será un significante diferencial competitivo entre negocios. Las organizaciones que olviden o ignoren sus problemas de calidad de datos van a ser superados por la competencia.
Recomendaciones: Las organizaciones deben ver la calidad de datos como un problema estratégico de su negocio, y alinear sus recursos a través de la mejora de calidad de datos. Las actividades clave incluye el desarrollo de programas de administración de datos, análisis y medición de la calidad de datos, mejora de procesos de negocio y la implementación de tecnología para soportar los controles de calidad de datos.
Gartner : Calidad de Datos
58
Apoyo
¿Cual es la mejor forma de lograr el apoyo para un proyecto de Calidad de Datos?
Divulgación interna, principalmente a las unidades de negocio, tecnología y a dirección
Auditoría de Calidad de Datos: Análisis y medición de los problemas de
Calidad de Datos de la Compañía Conclusiones de los problemas de Calidad
de Datos Propuesta de soluciones Análisis del ROI
59
Metodología
Decidir la metodología adecuada en función del nivel de apoyo logrado. Proyectos estratégicos con apoyo de la dirección: metodologías de Data Governance. Proyectos tácticos con apoyo de una o varias unidades de negocio. Proyectos relacionados de Calidad de Datos, con establecimiento de mejores prácticas para cada uno de ellos. Proyectos departamentales, orientados a la resolución de un problema determinado.
Establecer objetivos, definir métricas, monitorizar, corregir, repetir y evolucionar.
60
Tecnología
La tecnología es fundamental para la resolución de problemas de Calidad de Datos.En la elección de la tecnología deben exigirse los siguientes requisitos: Combinación con una plataforma de integración de datos: acceso universal a los datos Tratamiento de cualquier tipo de datos. No sólo nombres y direcciones. Solución de reporting, scorecarding y monitorización Orientado a negocio
61
Previsión de la inversión en Calidad de DatosPor Forrester Research, Inc.
2000 2001 2002 2003 2004 2005 2006 2007 2008
“Information Quality Market On Target To Top $1Billion By 2008,” Forrester Research, 21 de Marzo de 2005
62
Resistencia al cambio
No veo que tengamos
problemas en los datos
No es mi responsabilidad
Mejor no decir nada, no vayamos a abrir la caja
de Pandora
Escéptico Desentendido Catastrofista