Apunte 14 — Datos Likert y confiabilidad con psych

Analítica de Personas · Semestre otoño 2026 · Semana 6 · Prof. René Gempp

1. Datos Likert: lo que conviene saber antes de mirarlos

Una escala Likert (Likert, 1932) es un conjunto de afirmaciones —cada una con opciones de respuesta ordenadas, típicamente de 5 o 7 puntos— diseñadas para medir un constructo latente como satisfacción, engagement, compromiso o confianza. En analítica de personas son la materia prima de toda encuesta organizacional.

Tres tecnicismos que conviene tener claros antes de mirar los datos:

1.1 Ítem Likert ≠ escala Likert

Un ítem aislado no es una escala. Hablar de "una escala Likert" estrictamente significa un puntaje sumado o promediado de varios ítems que cargan en un mismo constructo. Un ítem único tiene mucho más error de medición que el promedio de cinco ítems del mismo constructo. Por eso las encuestas serias agrupan ítems en sub-escalas y reportan resultados a nivel de sub-escala.

1.2 Tratamiento como variable continua

Cada ítem individual es, técnicamente, una variable ordinal: "muy en desacuerdo" no está exactamente a la misma distancia de "en desacuerdo" que "de acuerdo" lo está de "muy de acuerdo". Pero en la práctica, cuando promediamos cinco ítems para crear un puntaje de sub-escala, ese promedio se trata como continuo y se analiza con correlación, regresión y EFA. La literatura psicométrica moderna debate este punto (Liddell & Kruschke, 2018), pero la práctica organizacional sigue siendo el promedio simple. Esta clase adopta esa convención y la declara explícitamente.

1.3 Ítems con redacción inversa (reverse-keyed)

Para reducir el sesgo de aquiescencia (tendencia a marcar "de acuerdo" sin pensar demasiado), las encuestas suelen incluir ítems formulados en sentido negativo. Por ejemplo, en una sub-escala de reconocimiento, casi todos los ítems pueden ser positivos:

...pero uno o dos ítems pueden estar formulados al revés:

Si olvidas recodificar ese ítem antes de calcular alpha o de promediar, los resultados pierden sentido. Es uno de los errores más frecuentes en el análisis de datos de encuesta —tan frecuente que vamos a dedicarle una sección entera más adelante.

Recodificación de un ítem reverso en escala 1–5 La fórmula es nuevo = 6 - viejo. Para escalas 1–7, es nuevo = 8 - viejo. Generalizando: nuevo = (max + min) - viejo.
# Recodificar un ítem reverso con dplyr
datos <- datos |>
  mutate(item_rec_03 = 6 - item_rec_03)

# O varios ítems a la vez con across()
items_reversos <- c("item_rec_03", "item_pro_05")
datos <- datos |>
  mutate(across(all_of(items_reversos), ~ 6 - .x))
Atajo del paquete psych La función psych::reverse.code() hace lo mismo de forma vectorizada. Su sintaxis es ligeramente más compacta cuando hay muchos ítems reversos en una misma escala.

2. Confiabilidad: el coeficiente α de Cronbach

La confiabilidad de una escala se refiere al grado en que sus ítems miden consistentemente el mismo constructo. La medida más reportada en la literatura organizacional es el coeficiente α de Cronbach (Cronbach, 1951). Conceptualmente, α responde a la pregunta: "si yo dividiera mis ítems en dos mitades aleatorias, ¿qué tan correlacionadas estarían entre sí, en promedio, sobre todas las particiones posibles?".

La fórmula es:

α = (k / (k − 1)) · (1 − Σσ²ᵢ / σ²total)

donde k es el número de ítems, σ²ᵢ es la varianza de cada ítem y σ²total es la varianza del puntaje total (la suma de los ítems).

2.1 Reglas prácticas (con cautela)

αInterpretación tradicional (Nunnally, 1978)
≥ 0,90Excelente — pero cuidado: puede sugerir redundancia entre ítems.
0,80 – 0,89Buena. Estándar deseado en investigación aplicada.
0,70 – 0,79Aceptable. Mínimo razonable para uso aplicado.
0,60 – 0,69Cuestionable. Solo defendible para escalas exploratorias o muy cortas.
< 0,60Insuficiente. La escala probablemente no mide lo que crees.

3. psych::alpha(): cálculo en R

El paquete psych de William Revelle (Northwestern) es el estándar de facto para psicometría en R. La función alpha() calcula el coeficiente y entrega además un diagnóstico ítem por ítem que es el verdadero valor del output.

# Instalar (una sola vez)
install.packages("psych")

# Cargar
library(psych)

# Seleccionar los ítems de UNA sub-escala
items_lid <- datos |> select(starts_with("item_lid"))

# Calcular alpha
psych::alpha(items_lid)

3.1 Lectura del output completo

El output de psych::alpha() tiene tres bloques principales:

Reliability analysis
Call: psych::alpha(x = items_lid)

  raw_alpha std.alpha G6(smc) average_r S/N    ase mean   sd median_r
       0.83      0.83    0.81      0.50 5.0 0.0083  3.4 0.81     0.49

 lower alpha upper     95% confidence boundaries
0.82 0.83 0.85

 Reliability if an item is dropped:
            raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
item_lid_01      0.79      0.79    0.76      0.49 3.8   0.0099 0.014  0.49
item_lid_02      0.80      0.80    0.77      0.50 3.9   0.0096 0.014  0.49
item_lid_03      0.79      0.79    0.76      0.49 3.8   0.0099 0.013  0.49
item_lid_04      0.81      0.81    0.78      0.51 4.2   0.0090 0.011  0.50
item_lid_05      0.80      0.80    0.77      0.50 4.0   0.0094 0.013  0.49

 Item statistics
              n raw.r std.r r.cor r.drop mean   sd
item_lid_01 936  0.78  0.79  0.71   0.61  3.4 1.05
item_lid_02 936  0.76  0.76  0.68   0.59  3.5 1.04
item_lid_03 936  0.78  0.78  0.71   0.61  3.4 1.06
item_lid_04 936  0.74  0.74  0.65   0.57  3.5 1.05
item_lid_05 936  0.76  0.76  0.68   0.59  3.4 1.05

3.2 Las cuatro columnas que te tienen que importar

ColumnaQué esCómo leerla
raw_alphaα calculado sobre las covarianzas (escala original de los ítems)El número que reportas en tu informe.
std.alphaα calculado sobre las correlaciones (ítems estandarizados)Útil cuando los ítems tienen escalas distintas. En una encuesta Likert homogénea suele ser muy parecido al raw.
r.dropCorrelación de cada ítem con la suma del resto (item-total correlation corregida)Cualquier ítem con r.drop < 0,30 es candidato a revisión. Si es negativo, casi seguro olvidaste recodificar un ítem reverso.
Reliability if an item is dropped → raw_alphaCómo cambiaría α si removieras ese ítemSi dropear un ítem aumenta α, ese ítem es candidato a eliminación.

4. La firma del bug: olvidar recodificar un ítem reverso

Esta es la lección más importante del apunte. Mira lo que pasa cuando "olvidamos" recodificar item_rec_03 (que está formulado al revés):

Sin recodificar (BUG)

raw_alpha = 0.33

r.drop por ítem:
item_rec_01:  0.55
item_rec_02:  0.52
item_rec_03: -0.62  <-- ALERTA
item_rec_04:  0.49
item_rec_05:  0.58

Después de recodificar

raw_alpha = 0.81

r.drop por ítem:
item_rec_01:  0.61
item_rec_02:  0.58
item_rec_03:  0.57
item_rec_04:  0.55
item_rec_05:  0.62

Dos firmas del bug:

  1. El α global es absurdamente bajo (~0,30) cuando esperabas algo en torno a 0,80.
  2. Hay un ítem con r.drop negativa. Eso es matemáticamente equivalente a decir: "este ítem se mueve en sentido contrario al resto de la escala", lo cual solo tiene sentido si está formulado al revés.
Hábito profesional Antes de calcular alpha, siempre mira las correlaciones bivariadas entre los ítems de la sub-escala (con cor()). Si ves una columna con correlaciones consistentemente negativas mientras las demás son positivas, ese ítem probablemente es reverso y nadie te avisó.

5. Limitaciones del α de Cronbach

Aunque α es la medida de confiabilidad más reportada, tiene tres problemas conceptuales que conviene tener presentes y nombrar honestamente cuando reportamos resultados:

  1. Asume tau-equivalencia. El cálculo de α supone que todos los ítems miden el constructo con exactamente el mismo peso (cargas factoriales iguales). Es un supuesto fuerte que casi nunca se cumple en la práctica.
  2. Aumenta artificialmente con el número de ítems. Una escala larga y mediocre puede tener α alto solo por la cantidad de ítems, no por la calidad. Por eso α > 0,90 a veces sugiere redundancia en lugar de confiabilidad excelente.
  3. No es prueba de unidimensionalidad. Una escala que mide dos constructos distintos pero correlacionados puede tener α aceptable. α te dice "los ítems se mueven juntos" pero no "los ítems miden una sola cosa".
Más allá del α: el coeficiente ω de McDonald McNeish (2018) publicó en Psychological Methods un artículo titulado "Thanks coefficient alpha, we'll take it from here" argumentando que la psicometría moderna debe migrar de α a coeficientes basados en modelos factoriales. El más popular es el coeficiente ω (omega) de McDonald, que se calcula con psych::omega() y no requiere el supuesto de tau-equivalencia. En esta clase reportamos α por su ubicuidad práctica, pero quien hará una tesis empírica debería conocer ω. La referencia es: McNeish, D. (2018). Thanks coefficient alpha, we'll take it from here. Psychological Methods, 23(3), 412–433.

6. Flujo de trabajo recomendado para una sub-escala

  1. Identifica los ítems que pertenecen a la sub-escala (en base a la documentación de la encuesta).
  2. Detecta ítems reversos leyendo los enunciados o calculando correlaciones bivariadas con cor().
  3. Recodifica los reversos con mutate(across(...)) antes de cualquier cálculo posterior.
  4. Calcula α con psych::alpha().
  5. Lee el bloque "Reliability if an item is dropped": si algún ítem aumenta α al ser eliminado, considera quitarlo (con justificación).
  6. Lee la columna r.drop: cualquier valor < 0,30 o (peor) negativo merece atención.
  7. Reporta α en tu informe junto al N, el número de ítems y el rango de respuestas. Por convención: "La sub-escala de liderazgo (5 ítems, escala 1–5) presentó una confiabilidad adecuada (α = 0,83, n = 936)."
  8. Solo entonces, calcula el puntaje promedio de la sub-escala con rowMeans() para análisis posteriores.

7. Resumen: el kit de la confiabilidad

FunciónPaquetePara qué sirve
mutate(x = 6 - x)dplyrRecodificar un ítem reverso en escala 1–5
psych::alpha()psychCoeficiente α de Cronbach + diagnóstico ítem por ítem
psych::omega()psychCoeficiente ω de McDonald (avanzado)
psych::reverse.code()psychAtajo para recodificar varios ítems reversos a la vez
cor()base RMatriz de correlaciones para detectar ítems reversos por su firma