Descripción
El contraste chi-cuadrado de independencia permite evaluar si existe asociación entre dos variables categóricas a partir de los recuentos observados en una tabla de contingencia. La pregunta que responde es: ¿los datos son compatibles con que ambas variables se distribuyen de forma independiente, o hay evidencia de que una variable influye en la otra?
La idea central es comparar lo que se ha observado con lo que se esperaría si las variables fueran realmente independientes. Si las diferencias entre frecuencias observadas y esperadas son demasiado grandes para atribuirlas al azar, se rechaza la hipótesis de independencia y se concluye que existe asociación.
Por ejemplo, una empresa quiere saber si la satisfacción de sus clientes (alta, media, baja) depende del canal de compra (tienda física, web, app). Recoge datos de una muestra y construye una tabla de contingencia. Si el contraste resulta significativo, hay evidencia de que el canal y la satisfacción están asociados; si no lo es, los datos son compatibles con que ambas variables son independientes.
El estadístico de contraste agrega las discrepancias de todas las celdas de la tabla y sigue una distribución chi-cuadrado bajo la hipótesis nula. Los grados de libertad dependen del tamaño de la tabla: \((r-1)(c-1)\), donde \(r\) es el número de filas y \(c\) el número de columnas.
Hipótesis y estadístico
\(H_0\): las variables son independientes
\(H_1\): existe asociación entre las variables
\(\chi^2 = \sum_{i,j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\), con \(E_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{n}\)
Calculadora
Introduce la tabla de contingencia (filas separadas por saltos de línea y columnas por comas o espacios).
Contraste rápido
El estadístico chi-cuadrado suma, para cada celda de la tabla, el cuadrado de la diferencia entre frecuencia observada y esperada, dividido entre la frecuencia esperada. Bajo la hipótesis nula de independencia, este estadístico sigue aproximadamente una distribución \(\chi^2\) con \((r-1)(c-1)\) grados de libertad:
\(\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \sim \chi^2_{(r-1)(c-1)}\)
Las frecuencias esperadas se obtienen a partir de los totales marginales de la tabla. Para la celda de la fila \(i\) y la columna \(j\):
\(E_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{n}\)
donde \(n_{i\cdot}\) es el total de la fila \(i\), \(n_{\cdot j}\) es el total de la columna \(j\) y \(n\) es el total general de la tabla.
Para que la aproximación chi-cuadrado sea fiable, conviene que la mayoría de las frecuencias esperadas sean mayores o iguales que 5. Si la tabla es 2×2 con frecuencias pequeñas, considera el test exacto de Fisher.
¿Qué calcula esta herramienta?
Esta calculadora de chi-cuadrado de independencia toma una tabla de contingencia con frecuencias observadas, calcula las frecuencias esperadas bajo independencia, obtiene el estadístico \(\chi^2\), los grados de libertad y el p-valor, y emite una decisión automática al nivel de significación indicado.
La herramienta también muestra la tabla de frecuencias esperadas y un gráfico con la distribución de referencia, la zona de rechazo y la posición del estadístico observado, lo que facilita la interpretación visual del resultado.
Fórmula utilizada
Las frecuencias esperadas bajo la hipótesis de independencia se calculan para cada celda \((i, j)\) como:
\(E_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{n}\)
El estadístico de contraste es:
\(\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)
Bajo \(H_0\), este estadístico sigue una distribución \(\chi^2\) con \((r-1)(c-1)\) grados de libertad. El p-valor es la probabilidad de obtener un estadístico tan grande o mayor si la hipótesis nula fuera cierta:
\(p = P\!\left(\chi^2_{(r-1)(c-1)} \geq \chi^2_{\text{obs}}\right)\)
Ejemplo de uso
Supón que quieres analizar si el género (masculino/femenino) está asociado al tipo de producto comprado (A/B/C). Encuestas a 200 clientes y obtienes los recuentos para cada combinación de categorías. Introduces esos recuentos como una tabla de 2 filas y 3 columnas, fijas α = 0,05 y pulsas calcular. La herramienta computa las frecuencias esperadas, el estadístico \(\chi^2\) y el p-valor. Si el p-valor es menor que 0,05, concluyes que hay asociación entre género y tipo de producto.
En ciencias sociales, epidemiología y control de calidad es frecuente comparar la distribución de una variable categórica entre grupos: tasas de respuesta por tratamiento, proporción de defectos por turno, distribución de opiniones por región. En todos estos casos, el contraste chi-cuadrado de independencia es la herramienta adecuada.
Cómo interpretar el resultado
Si el p-valor es menor que \(\alpha\), se rechaza \(H_0\) y se concluye que hay evidencia estadística de asociación entre las dos variables. Si el p-valor es mayor o igual que \(\alpha\), no hay evidencia suficiente para rechazar la independencia con ese nivel de significación.
Un resultado significativo indica asociación, pero no indica ni la dirección ni la magnitud de la relación. Para cuantificar la fuerza de la asociación puedes calcular métricas como la V de Cramér, que normaliza el estadístico chi-cuadrado en función del tamaño de la tabla y del tamaño muestral.
También es útil revisar la tabla de frecuencias esperadas: las celdas con mayor discrepancia entre \(O_{ij}\) y \(E_{ij}\) son las que más contribuyen al estadístico y revelan dónde se concentra la asociación.
Preguntas frecuentes
- ¿Cuándo se usa el contraste chi-cuadrado de independencia? Cuando se quiere saber si dos variables categóricas están asociadas a partir de los recuentos de una tabla de contingencia.
- ¿Cuántos grados de libertad tiene el estadístico? Los grados de libertad son \((r-1)(c-1)\), donde \(r\) es el número de filas y \(c\) el número de columnas de la tabla.
- ¿Qué condición deben cumplir las frecuencias esperadas? La aproximación es adecuada cuando la mayoría de las frecuencias esperadas son ≥ 5. Si hay celdas con frecuencias esperadas muy bajas, conviene usar el test exacto de Fisher o agrupar categorías.
- ¿Qué diferencia hay con el chi-cuadrado de bondad de ajuste? El de bondad de ajuste contrasta si una variable sigue una distribución teórica concreta. El de independencia contrasta si dos variables están asociadas entre sí, sin asumir ninguna distribución específica.
- ¿Puede haber asociación sin causalidad? Sí. El contraste detecta asociación estadística, pero no permite concluir que una variable causa la otra. La causalidad requiere diseño experimental o argumentación adicional.
- ¿Cómo afecta el tamaño muestral al resultado? Con muestras muy grandes, el contraste puede detectar asociaciones muy pequeñas que no son relevantes en la práctica. En esos casos conviene complementar el p-valor con una medida de tamaño del efecto como la V de Cramér.