Normalmente los datos con los que suele trabajar RRHH proceden de distintas fuentes, sistemas de gestión interna, contabilidad, gestión de recursos humanos, programas de nóminas, asesores externos, etc… Antes de utilizar todos los datos que hemos podido recopilar para realizar un estudio o cuadro de mando, es necesario verificar que no existen datos erróneos en nuestras tablas que puedan perjudicar o invalidar el resultado final del estudio.
A continuación proponemos una breve lista de 6 elementos a verificar que nos permitirán preparar nuestros datos para su posterior tratamiento.
1. Verifique si los datos están actualizados: si los datos están desactualizados es probable que el resultado final del estudio sea irrelevante y las conclusiones erróneas.
2. Verifique si existen identificadores únicos por empleado: independientemente de los cambios de puestos, la mayoría de los sistemas generan un ID único por empleado que le acompaña a lo largo de toda su carrera en la compañía. Sin embargo, algunos sistemas crean registros separados en función de la posición que ocupa en cada momento el empleado. Esto puede dar lugar a errores y duplicidades. Dependiendo de la situación y el estudio a realizar, es posible condensar todos los registros en un único ID por empleado que facilite el análisis posterior.
3. Analice los valores atípicos numéricos: los valores atípicos son observaciones extrañamente grandes o pequeñas que pueden influir en resultados estadísticos como la media. Para su detección se recomienda calcular las estadísticas descriptivas de nuestros datos así como los valores de los cuantiles. Esta información le permitirá calcular posibles valores atípicos. Los valores mínimo y máximo son un buen punto de partida así como el uso del Rango Intercuartil.
4. Analice los datos que faltan en las tablas y su distribución: cuando los valores faltantes están demasiado concentrados en áreas específicas de la organización los resultados del estudio pueden resultar sesgados. Así mismo, unas tablas con datos insuficientes pueden producir resultados inexactos afectando negativamente a la generalización de los mismos.
5. Defina cómo debe ser un dato para considerarse válido y elimine los valores no válidos: lo anterior es aplicable para todos los datos. Si tenemos claramente definidos cómo esperamos que sea un dato dentro de un campo concreto será más fácil detectar aquellos erróneos para su corrección (por ejemplo formatos de fechas) o su eliminación de la tabla maestra. Por ejemplo, el género se define como M o F y son los valores que consideramos válidos. Se presume que cualquier otro valor no es válido. Estos datos no válidos a priori se pueden marcar fácilmente en la tabla para su revisión posterior en profundidad.