Apunte 20 — Validez de selección y modelos clásicos de utilidad

Analítica de Personas · Semestre otoño 2026 · Semana 8 · Prof. René Gempp

¿Por qué este apunte importa para alguien que no es psicólogo? Si en tu empresa se gasta dinero en tests, entrevistas estructuradas, evaluaciones psicotécnicas o assessment centers, alguien tiene que justificar ese gasto. Este apunte te da el lenguaje y las herramientas para hacerlo. La pregunta «¿el test predice o no?» es exactamente análoga a «¿el modelo de credit scoring funciona?» o «¿el segmento de mercado es real?». Lo que cambia es el outcome (desempeño laboral en vez de default o conversión), pero la lógica estadística es la misma. Si entiendes regresión, entiendes validez de criterio. El resto es vocabulario.

1. La pregunta que separa al reclutamiento de la selección

El reclutamiento te trae candidatos. La selección te obliga a decidir, entre todos esos candidatos, a quiénes contratar. Esa decisión —en principio— se justifica con una creencia: «este candidato va a rendir mejor que aquel». La validez es la forma técnica de preguntar si esa creencia tiene base empírica.

Concretamente: si tomamos un grupo de candidatos, los hacemos pasar por un proceso de evaluación (test, entrevista, prueba técnica), les ponemos un puntaje, y después de un año medimos cómo les fue en el cargo, ¿hay correlación entre el puntaje del proceso y el desempeño efectivo? Si el coeficiente de correlación es prácticamente cero, el proceso no está prediciendo nada, y la decisión que toma es esencialmente arbitraria. Si el coeficiente es alto, el proceso vale la pena.

La traducción a lenguaje de negocio Validez ≈ qué tan bien tu sistema de evaluación distingue a los candidatos que van a rendir bien de los que no. Es exactamente la misma noción que tiene un banco al evaluar la discriminación de un modelo de credit scoring (AUC, KS, etc.). De hecho, las matemáticas son primas hermanas.

2. Tres tipos de validez (lo mínimo para entender la conversación)

La literatura técnica distingue tres tipos de validez. No necesitas dominarlos como un psicólogo, pero sí saber qué dice cada uno cuando aparece en una conversación.

2.1 Validez de contenido

Pregunta: ¿el instrumento mide cosas relevantes para el cargo?

Si estás contratando un programador y el test pregunta sólo de capitales del mundo, la validez de contenido es baja: el contenido del test no tiene relación con lo que la persona va a hacer. Si el test consiste en escribir código real frente a una pantalla, la validez de contenido es alta. Esta validez no se mide con un coeficiente: se evalúa con expertos del cargo (lo que en la jerga se llama panel de expertos) o documentando el análisis del puesto.

2.2 Validez de constructo

Pregunta: ¿el instrumento mide lo que dice medir?

Esta es la validez más abstracta. Un test de razonamiento lógico debería correlacionar fuerte con otros tests de razonamiento lógico (eso le da convergente) y débil con tests de cosas que no son razonamiento lógico, como conocimientos específicos o personalidad (eso le da discriminante). Si quieres profundizar, esto se estudia formalmente con análisis factorial confirmatorio. Para fines de este curso basta con que sepas que existe.

2.3 Validez de criterio

Pregunta: ¿el puntaje del instrumento predice el desempeño?

Esta es la validez que más nos interesa, porque es la que se traduce directamente en dinero. Operacionalmente, es la correlación entre el puntaje en el proceso de selección y una medida de desempeño del cargo (calificación del jefe, productividad, etc.).

$r_{xy} = \dfrac{\text{cov}(x, y)}{\sqrt{\text{var}(x) \cdot \text{var}(y)}}$

Donde $x$ es el puntaje del proceso (test, entrevista, etc.) y $y$ es el desempeño. La validez de criterio es literalmente el coeficiente de correlación de Pearson entre los dos. En R:

# Si tienes datos de desempeño 12 meses después
datos |> summarise(r = cor(score_total, desempeno_12m))

Lectura práctica de la magnitud de r

r ≈ 0,10 → trivial. El proceso no está prediciendo nada útil.
r ≈ 0,20 → modesto. Mejor que cara o sello, pero apenas.
r ≈ 0,30 → sustantivo. Empieza a justificar el gasto.
r ≈ 0,50 → raro y valioso. Pocos métodos llegan acá en la realidad.

3. ¿Por qué la validez observada subestima la verdadera? (range restriction)

Hay un detalle técnico que es importante mencionar porque, si no lo conoces, las cifras de la literatura te van a parecer infladas. Se llama range restriction (restricción de rango).

El problema es este: para calcular validez de criterio en una empresa, necesitas medir desempeño de las personas que efectivamente fueron contratadas. Pero tu instrumento ya seleccionó a esa muestra: típicamente, los contratados son los que sacaron mejores puntajes en el proceso. Eso recorta la varianza del predictor. Y cuando recortas la varianza, la correlación observada cae mecánicamente, aunque la relación verdadera sea fuerte.

La consecuencia es que las validez observadas en muestras restringidas (incumbents, los que ya están en el cargo) son sistemáticamente menores que la validez «verdadera» de la población completa de candidatos. Existen fórmulas de corrección, pero son delicadas y dependen de supuestos.

Por qué esto te importa Cuando leas «la validez del test es 0,35», pregúntate primero: ¿esa cifra está corregida por restricción de rango? Si está corregida, es una proyección de lo que valdría el test en candidatos sin filtrar. Si no está corregida, es la cifra observada en la empresa, que probablemente subestima la validez real. La diferencia importa para decisiones de inversión.

4. Schmidt y Hunter (1998): los 85 años de meta-análisis condensados en una tabla

Schmidt y Hunter publicaron en 1998 un artículo que se convirtió en la referencia obligada de la disciplina. Acumularon 85 años de estudios sobre validez de instrumentos de selección y reportaron las correlaciones operacionales corregidas (con restricción de rango y unreliability del criterio) para los principales métodos.

Método de selección	r (operacional)
Test de capacidad cognitiva general (GMA)	0,51
Work sample test (muestra de trabajo)	0,54
Entrevista estructurada	0,51
Entrevista no estructurada	0,38
Test de integridad	0,41
Conscientiousness (responsabilidad, Big Five)	0,31
Reference checks (revisión de referencias)	0,26
Años de experiencia	0,18
Años de educación	0,10
GMA + entrevista estructurada (combinado)	0,63

La tabla generó tres consensos que dominaron la disciplina por 25 años: (1) la capacidad cognitiva general es el predictor individual más fuerte; (2) las muestras de trabajo y las entrevistas estructuradas son alternativas con validez comparable; (3) lo que las empresas más miran —años de educación, referencias, experiencia— está abajo de la tabla.

5. Sackett et al. (2022): la corrección que sacudió el campo

En 2022, Sackett, Zhang, Berry y Lievens publicaron una reanálisis de los mismos datos con correcciones más conservadoras. Argumentaron que las correcciones de Schmidt y Hunter (especialmente por restricción de rango indirecta y por unreliability del criterio) eran demasiado agresivas y producían validez inflada.

Método	r (Schmidt-Hunter, 1998)	r (Sackett et al., 2022)	Caída relativa
GMA	0,51	0,31	−39 %
Work sample	0,54	0,33	−39 %
Entrevista estructurada	0,51	0,42	−18 %
Test de integridad	0,41	0,31	−24 %
Conscientiousness	0,31	0,19	−39 %

La jerarquía relativa entre métodos se preserva, pero las magnitudes caen entre 18 % y 40 %. Eso es importante porque cualquier cálculo de retorno económico (que veremos en el Apunte 21) es lineal en r: si dividimos r por dos, dividimos el retorno por dos.

La controversia abierta Bobko, Roth, Huy, Oh y Salgado (2024) publicaron una respuesta cuestionando algunos supuestos de Sackett et al. Sackett y colegas (2024) replicaron defendiendo su enfoque. La discusión sigue activa en revistas como Journal of Applied Psychology y International Journal of Selection and Assessment. Para fines de este curso, lo razonable es presentar los dos rangos en cualquier estimación que hagas: «bajo Schmidt-Hunter (1998) el ROI es X; bajo Sackett et al. (2022) es Y». Reportar una sola cifra es deshonesto.

6. Validez incremental: combinando predictores

En la práctica, los procesos de selección no usan un solo predictor: combinan varios (test + entrevista + prueba técnica). La pregunta es cuánto agrega cada predictor adicional sobre lo que ya tienes.

Esto se llama validez incremental y, técnicamente, es el incremento en R² al agregar un predictor a un modelo de regresión múltiple sobre el desempeño:

# Modelo base: solo test de aptitud
m1 <- lm(desempeno_12m ~ score_test, data = datos)

# Modelo extendido: agrega entrevista
m2 <- lm(desempeno_12m ~ score_test + score_entrevista, data = datos)

# Validez incremental = incremento en R²
summary(m1)$r.squared
summary(m2)$r.squared
summary(m2)$r.squared - summary(m1)$r.squared

El criterio práctico Un predictor adicional vale la pena agregarlo al proceso si: (a) incrementa R² de manera apreciable; (b) ese incremento se traduce en mayor utilidad económica que su costo (esto se mide formalmente con BCG, ver Apunte 21); (c) no introduce adverse impact mayor que el del proceso actual (Apunte 22).

7. Taylor-Russell (1939): el modelo más antiguo y todavía útil

Hasta acá hablamos de validez como correlación. Eso es informativo, pero no responde la pregunta del gerente: «si yo subo la barra del test, ¿cuántos de mis contratados van a rendir bien?». Para responder eso necesitamos los modelos de utilidad. El más antiguo —y el más fácil de comunicar— es el de Taylor y Russell.

El modelo asume que tanto el predictor (puntaje del proceso) como el criterio (desempeño) son normales bivariados. Toma tres parámetros:

r: la validez del proceso (correlación entre puntaje y desempeño)
BR (base rate): proporción de la población actual que rinde por encima del umbral de «exitoso», sin usar el proceso
SR (selection ratio): proporción de candidatos que terminamos contratando (los del top de scores)

El modelo entrega un único output: la success ratio esperada, es decir, la proporción de los contratados-con-proceso que serán exitosos.

$\text{Success Ratio}(r, BR, SR) = \dfrac{P(z_x \geq z_{SR},\ z_y \geq z_{BR})}{SR}$

Donde la integral del numerador se calcula sobre una normal bivariada con correlación r. En R no hay que derivarla a mano: mvtnorm::pmvnorm() hace la integración.

library(mvtnorm)

taylor_russell <- function(r, BR, SR) {
  z_BR <- qnorm(1 - BR)   # umbral en desempeño
  z_SR <- qnorm(1 - SR)   # umbral en predictor
  Sigma <- matrix(c(1, r, r, 1), 2, 2)
  joint <- pmvnorm(
    lower = c(z_SR, z_BR),
    upper = c(Inf, Inf),
    sigma = Sigma
  )
  as.numeric(joint) / SR
}

# Ejemplo InnovaCo Tecnología
# r = 0,33 (validez Sackett 2022); BR = 0,55 (sin test, 55% rinde bien)
# SR = 0,33 (contratamos top 33% de scores)
taylor_russell(r = 0.33, BR = 0.55, SR = 0.33)

[1] 0.7088

Lectura: si pasamos de no usar el test (con el cual el 55 % de los contratados rinde bien) a usarlo con un punto de corte que selecciona al top 33 %, esperamos que el 71 % de los contratados rinda bien. Una mejora de 16 puntos porcentuales.

El gráfico de Taylor-Russell para una conversación con el directorio Una práctica recomendable es graficar la success ratio como función de SR y r juntos, para mostrar visualmente cómo cambia. Mira el script clase08_script.R §12 para el código completo del heatmap.

8. Naylor-Shine (1965): de la dicotomía a la ganancia continua

Taylor-Russell tiene una limitación que un ingeniero comercial detecta enseguida: obliga a dicotomizar el desempeño en «exitoso/no exitoso». En la práctica, el desempeño es una variable continua, y no queremos perder información dicotomizándola.

Naylor y Shine resolvieron este problema en 1965. Su modelo no requiere fijar un umbral de éxito en el desempeño. Entrega como output el incremento esperado en el desempeño promedio (medido en desviaciones estándar) al usar el proceso de selección.

$\Delta \bar{Z}_y = r \cdot \lambda(SR)$

Donde:

$\Delta \bar{Z}_y$ es la mejora esperada en desempeño promedio, en unidades de desviación estándar.
$r$ es la validez del proceso.
$\lambda(SR) = \dfrac{\varphi(z_{SR})}{SR}$, donde $\varphi$ es la densidad normal estándar evaluada en el cutoff $z_{SR} = \Phi^{-1}(1 - SR)$.

El parámetro $\lambda$ es la razón de selección estandarizada: dice cuántas SDs por encima del promedio de la población está el candidato promedio que efectivamente seleccionas, antes de aplicar la validez. En R:

naylor_shine <- function(r, SR) {
  z_SR <- qnorm(1 - SR)
  lambda <- dnorm(z_SR) / SR
  delta_z_y <- r * lambda
  list(lambda = lambda, delta_z_y = delta_z_y)
}

naylor_shine(r = 0.33, SR = 0.33)

$lambda [1] 1.157 $delta_z_y [1] 0.382

Lectura: con r = 0,33 y SR = 0,33, los contratados-con-proceso rendirán, en promedio, 0,38 desviaciones estándar mejor que un contratado sacado al azar de la población de candidatos. Si $SD_y$ se mide en pesos, ese 0,38 SD se traduce directamente a beneficio monetario por contratado, lo que conecta con el modelo BCG (Apunte 21).

Tabla canónica de λ (la herramienta de bolsillo)

Memoriza esta tabla, o tenla a mano. Son los valores de $\lambda$ para los selection ratios más típicos en la práctica:

SR	λ(SR)	Interpretación
0,05 (top 5 %)	2,06	Selección extremadamente exigente; cada contratado está a 2 SDs sobre el promedio del predictor
0,10	1,76	Top 10 %; común en posiciones gerenciales
0,20	1,40	Top 20 %; común en cargos profesionales muy demandados
0,30	1,16	Selección razonablemente exigente
0,50	0,80	Mitad de los candidatos pasa
0,80	0,35	Casi todos pasan; selección muy laxa

La intuición clave para reuniones $\lambda$ refleja cuán «exigente» es el filtro. Procesos más exigentes (SR pequeño) tienen λ más grande, lo que multiplica el efecto de la validez. Pero ojo: también requieren más postulaciones para llenar la misma cantidad de vacantes, lo que aumenta el costo del proceso. La elección del SR no es solo psicométrica: es estratégica y financiera.

9. ¿Cuándo usar Taylor-Russell y cuándo Naylor-Shine?

Característica	Taylor-Russell (1939)	Naylor-Shine (1965)
Output	Proporción de contratados exitosos	Incremento en desempeño promedio (en SDs)
Requiere umbral de éxito en y	Sí (necesitas BR)	No
Comunicabilidad ejecutiva	Alta (proporción es intuitiva)	Media (SDs requiere explicación)
Conexión con utilidad monetaria	Indirecta	Directa (vía SD_y → BCG)
Cuándo conviene usarlo	Cuando el cargo tiene umbrales claros (alcanza meta o no)	Cuando el desempeño es continuo (productividad, ventas, etc.)

Una buena práctica es usarlos juntos: Taylor-Russell le da al ejecutivo la cifra fácil de comunicar («pasamos de 55 % a 71 % de éxito»), y Naylor-Shine alimenta el cálculo de utilidad monetaria que veremos en el Apunte 21.

10. Variantes modernas: machine learning como predictor

Cada vez más empresas reemplazan los tests psicométricos tradicionales por modelos de machine learning: gradient boosting, redes neuronales o, más recientemente, modelos de lenguaje aplicados a CVs y datos de procesos pasados. Conceptualmente, eso es válido: cualquier modelo que produce un score puede usarse como predictor en los modelos de utilidad clásicos. La validez del modelo se mide igual: correlación con desempeño.

Pero hay tres advertencias que debes manejar antes de hacer una recomendación de inversión:

Advertencia 1: target leakage Si entrenas el modelo de scoring con datos de quién fue contratado en lugar de quién rindió bien, el modelo aprende los sesgos de los reclutadores históricos, no los predictores reales del desempeño. La validez aparente puede ser alta, pero el modelo está prediciendo el comportamiento del reclutador, no el del cargo. Volveremos sobre esto en el Apunte 22.

Advertencia 2: range restriction es peor con ML Los modelos de ML típicamente se entrenan con muestras de personas contratadas, lo que magnifica la restricción de rango. La validez observada puede subestimar fuertemente la validez sobre la población candidata completa.

Advertencia 3: explainability como condición regulatoria Bajo NYC LL 144 (2023) y el AI Act europeo (2024), los sistemas algorítmicos de selección requieren documentación, auditoría y, en algunos casos, derecho a explicación. Un modelo black-box que no puedes explicar al candidato es problemático aunque tenga alta validez. El Apunte 22 desarrolla en detalle el marco regulatorio y la auditoría.

Empíricamente, los estudios disponibles sobre selección con ML (Sajjadiani et al., 2019; Hickman et al., 2022) sugieren que estos modelos producen mejoras incrementales modestas sobre los métodos tradicionales bien aplicados, no saltos cualitativos. La validez incremental sobre una entrevista estructurada bien diseñada rara vez supera 0,05–0,10 en r.

11. Resumen práctico: lo que necesitas hacer en tu empresa

Establece la validez del proceso actual. Calcula la correlación entre los puntajes que generas en selección y el desempeño 12 meses después de los contratados. Esa cifra, aunque imperfecta, es tu línea de base.
Compárala contra los benchmarks de Sackett et al. (2022). Si tu validez está sustantivamente por debajo del benchmark del método que usas, hay margen para mejorar el proceso. Reporta los rangos Schmidt-Hunter ↔ Sackett, no una cifra única.
Calcula la success ratio con Taylor-Russell para comunicar al directorio. Es la cifra más fácil de entender: «pasamos de X % a Y % de contratados exitosos».
Calcula el incremento en desempeño promedio con Naylor-Shine. Esto te conecta con el cálculo monetario del Apunte 21.
Documenta la decisión. Bajo el marco regulatorio que viene (UE AI Act, proyecto chileno de Ley sobre IA), la trazabilidad de la decisión —por qué este test, con este r, con este SR— pasa a ser exigible. Empieza ya.

El siguiente paso natural Una vez que sabes que tu proceso predice (validez) y cuánto mejora el desempeño promedio (Naylor-Shine), la pregunta natural es: ¿cuánto vale eso en pesos?. Esa pregunta se responde con Brogden-Cronbach-Gleser, que es el tema del Apunte 21.

Referencias

Bobko, P., Roth, P. L., Huy, L., Oh, I.-S., & Salgado, J. F. (2024). Critique of Sackett et al.'s (2022) revised meta-analytic validity coefficients. Journal of Applied Psychology. Advance online publication.

Hickman, L., Bosch, N., Ng, V., Saef, R., Tay, L., & Woo, S. E. (2022). Automated video interview personality assessments: Reliability, validity, and generalizability investigations. Journal of Applied Psychology, 107(8), 1323–1351.

Naylor, J. C., & Shine, L. C. (1965). A table for determining the increase in mean criterion score obtained by using a selection device. Journal of Industrial Psychology, 3, 33–42.

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2023). Revisiting the design of selection systems in light of new findings regarding the validity of widely used predictors. Industrial and Organizational Psychology, 16(3), 283–300.

Sajjadiani, S., Sojourner, A. J., Kammeyer-Mueller, J. D., & Mykerezi, E. (2019). Using machine learning to translate applicant work history into predictors of performance and turnover. Journal of Applied Psychology, 104(10), 1207–1225.

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274.

Taylor, H. C., & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23(5), 565–578.