Analítica de Personas · Semestre otoño 2026 · Semana 8 · Prof. René Gempp
El reclutamiento te trae candidatos. La selección te obliga a decidir, entre todos esos candidatos, a quiénes contratar. Esa decisión —en principio— se justifica con una creencia: «este candidato va a rendir mejor que aquel». La validez es la forma técnica de preguntar si esa creencia tiene base empírica.
Concretamente: si tomamos un grupo de candidatos, los hacemos pasar por un proceso de evaluación (test, entrevista, prueba técnica), les ponemos un puntaje, y después de un año medimos cómo les fue en el cargo, ¿hay correlación entre el puntaje del proceso y el desempeño efectivo? Si el coeficiente de correlación es prácticamente cero, el proceso no está prediciendo nada, y la decisión que toma es esencialmente arbitraria. Si el coeficiente es alto, el proceso vale la pena.
La literatura técnica distingue tres tipos de validez. No necesitas dominarlos como un psicólogo, pero sí saber qué dice cada uno cuando aparece en una conversación.
Pregunta: ¿el instrumento mide cosas relevantes para el cargo?
Si estás contratando un programador y el test pregunta sólo de capitales del mundo, la validez de contenido es baja: el contenido del test no tiene relación con lo que la persona va a hacer. Si el test consiste en escribir código real frente a una pantalla, la validez de contenido es alta. Esta validez no se mide con un coeficiente: se evalúa con expertos del cargo (lo que en la jerga se llama panel de expertos) o documentando el análisis del puesto.
Pregunta: ¿el instrumento mide lo que dice medir?
Esta es la validez más abstracta. Un test de razonamiento lógico debería correlacionar fuerte con otros tests de razonamiento lógico (eso le da convergente) y débil con tests de cosas que no son razonamiento lógico, como conocimientos específicos o personalidad (eso le da discriminante). Si quieres profundizar, esto se estudia formalmente con análisis factorial confirmatorio. Para fines de este curso basta con que sepas que existe.
Pregunta: ¿el puntaje del instrumento predice el desempeño?
Esta es la validez que más nos interesa, porque es la que se traduce directamente en dinero. Operacionalmente, es la correlación entre el puntaje en el proceso de selección y una medida de desempeño del cargo (calificación del jefe, productividad, etc.).
Donde $x$ es el puntaje del proceso (test, entrevista, etc.) y $y$ es el desempeño. La validez de criterio es literalmente el coeficiente de correlación de Pearson entre los dos. En R:
# Si tienes datos de desempeño 12 meses después
datos |> summarise(r = cor(score_total, desempeno_12m))
Hay un detalle técnico que es importante mencionar porque, si no lo conoces, las cifras de la literatura te van a parecer infladas. Se llama range restriction (restricción de rango).
El problema es este: para calcular validez de criterio en una empresa, necesitas medir desempeño de las personas que efectivamente fueron contratadas. Pero tu instrumento ya seleccionó a esa muestra: típicamente, los contratados son los que sacaron mejores puntajes en el proceso. Eso recorta la varianza del predictor. Y cuando recortas la varianza, la correlación observada cae mecánicamente, aunque la relación verdadera sea fuerte.
La consecuencia es que las validez observadas en muestras restringidas (incumbents, los que ya están en el cargo) son sistemáticamente menores que la validez «verdadera» de la población completa de candidatos. Existen fórmulas de corrección, pero son delicadas y dependen de supuestos.
Schmidt y Hunter publicaron en 1998 un artículo que se convirtió en la referencia obligada de la disciplina. Acumularon 85 años de estudios sobre validez de instrumentos de selección y reportaron las correlaciones operacionales corregidas (con restricción de rango y unreliability del criterio) para los principales métodos.
| Método de selección | r (operacional) |
|---|---|
| Test de capacidad cognitiva general (GMA) | 0,51 |
| Work sample test (muestra de trabajo) | 0,54 |
| Entrevista estructurada | 0,51 |
| Entrevista no estructurada | 0,38 |
| Test de integridad | 0,41 |
| Conscientiousness (responsabilidad, Big Five) | 0,31 |
| Reference checks (revisión de referencias) | 0,26 |
| Años de experiencia | 0,18 |
| Años de educación | 0,10 |
| GMA + entrevista estructurada (combinado) | 0,63 |
La tabla generó tres consensos que dominaron la disciplina por 25 años: (1) la capacidad cognitiva general es el predictor individual más fuerte; (2) las muestras de trabajo y las entrevistas estructuradas son alternativas con validez comparable; (3) lo que las empresas más miran —años de educación, referencias, experiencia— está abajo de la tabla.
En 2022, Sackett, Zhang, Berry y Lievens publicaron una reanálisis de los mismos datos con correcciones más conservadoras. Argumentaron que las correcciones de Schmidt y Hunter (especialmente por restricción de rango indirecta y por unreliability del criterio) eran demasiado agresivas y producían validez inflada.
| Método | r (Schmidt-Hunter, 1998) | r (Sackett et al., 2022) | Caída relativa |
|---|---|---|---|
| GMA | 0,51 | 0,31 | −39 % |
| Work sample | 0,54 | 0,33 | −39 % |
| Entrevista estructurada | 0,51 | 0,42 | −18 % |
| Test de integridad | 0,41 | 0,31 | −24 % |
| Conscientiousness | 0,31 | 0,19 | −39 % |
La jerarquía relativa entre métodos se preserva, pero las magnitudes caen entre 18 % y 40 %. Eso es importante porque cualquier cálculo de retorno económico (que veremos en el Apunte 21) es lineal en r: si dividimos r por dos, dividimos el retorno por dos.
En la práctica, los procesos de selección no usan un solo predictor: combinan varios (test + entrevista + prueba técnica). La pregunta es cuánto agrega cada predictor adicional sobre lo que ya tienes.
Esto se llama validez incremental y, técnicamente, es el incremento en R² al agregar un predictor a un modelo de regresión múltiple sobre el desempeño:
# Modelo base: solo test de aptitud
m1 <- lm(desempeno_12m ~ score_test, data = datos)
# Modelo extendido: agrega entrevista
m2 <- lm(desempeno_12m ~ score_test + score_entrevista, data = datos)
# Validez incremental = incremento en R²
summary(m1)$r.squared
summary(m2)$r.squared
summary(m2)$r.squared - summary(m1)$r.squared
Hasta acá hablamos de validez como correlación. Eso es informativo, pero no responde la pregunta del gerente: «si yo subo la barra del test, ¿cuántos de mis contratados van a rendir bien?». Para responder eso necesitamos los modelos de utilidad. El más antiguo —y el más fácil de comunicar— es el de Taylor y Russell.
El modelo asume que tanto el predictor (puntaje del proceso) como el criterio (desempeño) son normales bivariados. Toma tres parámetros:
El modelo entrega un único output: la success ratio esperada, es decir, la proporción de los contratados-con-proceso que serán exitosos.
Donde la integral del numerador se calcula sobre una normal bivariada con correlación r. En R no hay que derivarla a mano: mvtnorm::pmvnorm() hace la integración.
library(mvtnorm)
taylor_russell <- function(r, BR, SR) {
z_BR <- qnorm(1 - BR) # umbral en desempeño
z_SR <- qnorm(1 - SR) # umbral en predictor
Sigma <- matrix(c(1, r, r, 1), 2, 2)
joint <- pmvnorm(
lower = c(z_SR, z_BR),
upper = c(Inf, Inf),
sigma = Sigma
)
as.numeric(joint) / SR
}
# Ejemplo InnovaCo Tecnología
# r = 0,33 (validez Sackett 2022); BR = 0,55 (sin test, 55% rinde bien)
# SR = 0,33 (contratamos top 33% de scores)
taylor_russell(r = 0.33, BR = 0.55, SR = 0.33)
Lectura: si pasamos de no usar el test (con el cual el 55 % de los contratados rinde bien) a usarlo con un punto de corte que selecciona al top 33 %, esperamos que el 71 % de los contratados rinda bien. Una mejora de 16 puntos porcentuales.
clase08_script.R §12 para el código completo del heatmap.
Taylor-Russell tiene una limitación que un ingeniero comercial detecta enseguida: obliga a dicotomizar el desempeño en «exitoso/no exitoso». En la práctica, el desempeño es una variable continua, y no queremos perder información dicotomizándola.
Naylor y Shine resolvieron este problema en 1965. Su modelo no requiere fijar un umbral de éxito en el desempeño. Entrega como output el incremento esperado en el desempeño promedio (medido en desviaciones estándar) al usar el proceso de selección.
Donde:
El parámetro $\lambda$ es la razón de selección estandarizada: dice cuántas SDs por encima del promedio de la población está el candidato promedio que efectivamente seleccionas, antes de aplicar la validez. En R:
naylor_shine <- function(r, SR) {
z_SR <- qnorm(1 - SR)
lambda <- dnorm(z_SR) / SR
delta_z_y <- r * lambda
list(lambda = lambda, delta_z_y = delta_z_y)
}
naylor_shine(r = 0.33, SR = 0.33)
Lectura: con r = 0,33 y SR = 0,33, los contratados-con-proceso rendirán, en promedio, 0,38 desviaciones estándar mejor que un contratado sacado al azar de la población de candidatos. Si $SD_y$ se mide en pesos, ese 0,38 SD se traduce directamente a beneficio monetario por contratado, lo que conecta con el modelo BCG (Apunte 21).
Memoriza esta tabla, o tenla a mano. Son los valores de $\lambda$ para los selection ratios más típicos en la práctica:
| SR | λ(SR) | Interpretación |
|---|---|---|
| 0,05 (top 5 %) | 2,06 | Selección extremadamente exigente; cada contratado está a 2 SDs sobre el promedio del predictor |
| 0,10 | 1,76 | Top 10 %; común en posiciones gerenciales |
| 0,20 | 1,40 | Top 20 %; común en cargos profesionales muy demandados |
| 0,30 | 1,16 | Selección razonablemente exigente |
| 0,50 | 0,80 | Mitad de los candidatos pasa |
| 0,80 | 0,35 | Casi todos pasan; selección muy laxa |
| Característica | Taylor-Russell (1939) | Naylor-Shine (1965) |
|---|---|---|
| Output | Proporción de contratados exitosos | Incremento en desempeño promedio (en SDs) |
| Requiere umbral de éxito en y | Sí (necesitas BR) | No |
| Comunicabilidad ejecutiva | Alta (proporción es intuitiva) | Media (SDs requiere explicación) |
| Conexión con utilidad monetaria | Indirecta | Directa (vía SDy → BCG) |
| Cuándo conviene usarlo | Cuando el cargo tiene umbrales claros (alcanza meta o no) | Cuando el desempeño es continuo (productividad, ventas, etc.) |
Una buena práctica es usarlos juntos: Taylor-Russell le da al ejecutivo la cifra fácil de comunicar («pasamos de 55 % a 71 % de éxito»), y Naylor-Shine alimenta el cálculo de utilidad monetaria que veremos en el Apunte 21.
Cada vez más empresas reemplazan los tests psicométricos tradicionales por modelos de machine learning: gradient boosting, redes neuronales o, más recientemente, modelos de lenguaje aplicados a CVs y datos de procesos pasados. Conceptualmente, eso es válido: cualquier modelo que produce un score puede usarse como predictor en los modelos de utilidad clásicos. La validez del modelo se mide igual: correlación con desempeño.
Pero hay tres advertencias que debes manejar antes de hacer una recomendación de inversión:
Empíricamente, los estudios disponibles sobre selección con ML (Sajjadiani et al., 2019; Hickman et al., 2022) sugieren que estos modelos producen mejoras incrementales modestas sobre los métodos tradicionales bien aplicados, no saltos cualitativos. La validez incremental sobre una entrevista estructurada bien diseñada rara vez supera 0,05–0,10 en r.
Bobko, P., Roth, P. L., Huy, L., Oh, I.-S., & Salgado, J. F. (2024). Critique of Sackett et al.'s (2022) revised meta-analytic validity coefficients. Journal of Applied Psychology. Advance online publication.
Hickman, L., Bosch, N., Ng, V., Saef, R., Tay, L., & Woo, S. E. (2022). Automated video interview personality assessments: Reliability, validity, and generalizability investigations. Journal of Applied Psychology, 107(8), 1323–1351.
Naylor, J. C., & Shine, L. C. (1965). A table for determining the increase in mean criterion score obtained by using a selection device. Journal of Industrial Psychology, 3, 33–42.
Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.
Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2023). Revisiting the design of selection systems in light of new findings regarding the validity of widely used predictors. Industrial and Organizational Psychology, 16(3), 283–300.
Sajjadiani, S., Sojourner, A. J., Kammeyer-Mueller, J. D., & Mykerezi, E. (2019). Using machine learning to translate applicant work history into predictors of performance and turnover. Journal of Applied Psychology, 104(10), 1207–1225.
Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274.
Taylor, H. C., & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23(5), 565–578.