Táboa de continxencia

táboa en formato matricial que mostra a distribución de frecuencias multivariante

En estatística, unha táboa de continxencia (tamén coñecida como táboa cruzada) é un tipo de táboa en formato matricial que mostra a distribución de frecuencias multivariante das variábeis. Son moi utilizadas na investigación de enquisas, intelixencia empresarial, enxeñaría e investigación científica. Ofrecen unha imaxe básica da interrelación entre dúas variábeis e poden axudar a atopar interaccións entre elas. O termo táboa de continxencia foi usado por primeira vez por Karl Pearson en "On the Theory of Contingency and Its Relation to Association and Normal Correlation",[1] parte da Drapers' Company Research Memoirs Biometric Series I publicada en 1904.

Un problema crucial da estatística multivariante é atopar a estrutura de dependencia (directa) subxacente ás variábeis contidas nas táboas de continxencia de dimensión alta. Se se revelan algunhas das independencias condicionais, mesmo o almacenamento dos datos pódese facer dun xeito máis intelixente (véxase Lauritzen (2002)). Para iso pódese utilizar os conceptos da teoría da información, que obteñen a información só da distribución de probabilidade, que se pode expresar facilmente a partir da táboa de continxencia mediante as frecuencias relativas.

Exemplo

editar

Supoñamos que hai dúas variábeis, o sexo (masculino ou feminino) e a man (destro ou zurdo). Supoña a maiores que temos unha mostraxe de 100 individuos aleatorios dunha poboación moi grande como parte dun estudo sobre as diferenzas de sexo e a man utilizada. Pódese crear unha táboa de continxencia para mostrar o número de individuos que son homes destros e zurdos, mulleres destros e zurdos. Esta táboa de continxencia móstrase a continuación.

Man usada
Sexo
Destro Zurdo Total
Masculino 43 9 52
Feminino 44 4 48
Total 87 13 100

O número de machos, femias e individuos destros e zurdos chámanse totais marxinais. O total final (o número total de persoas representadas na táboa de continxencia) é o número que aparece na esquina inferior dereita.

A táboa permite que os usuarios vexan dunha ollada que a proporción de homes que son destros é aproximadamente a mesma que a proporción de mulleres que son destras aínda que as proporcións non son idénticas. A forza da correlación pódese medir pola razón de posibilidades, e a razón de posibilidades da poboación da mostraxe. A significación da diferenza entre as dúas proporcións pódese avaliar mediante varios tests estatísticos, incluíndo o test khi cadrado de Pearson, o test G, o test exacto de Fisher, o test de Boschloo e o test de Barnard, sempre que as entradas da táboa representen individuos aleatoriamente escollidos da poboación sobre a que se deben extraer conclusións. Se as proporcións dos individuos nas distintas columnas varían significativamente entre as filas (ou viceversa), dise que existe unha continxencia entre as dúas variábeis. Noutras palabras, as dúas variábeis non son independentes. Se non hai continxencia, dise que as dúas variábeis son independentes .

O exemplo anterior é o tipo máis sinxelo de táboa de continxencia, unha táboa na que cada variábel só ten dous niveis. En principio, pódese utilizar calquera número de filas e columnas. Tamén pode haber máis de dúas variábeis, mais as táboas de continxencia de orde superior son difíciles de representar visualmente.

Contidos estándar dunha táboa de continxencia

editar
  • Varias columnas (historicamente foron deseñadas para usar todo o espazo en branco dunha páxina impresa). Cando cada fila refírese a un subgrupo específico da poboación (neste caso homes ou mulleres).
  • Tests de significancia. Normalmente, as comparacións de columnas, que proban as diferenzas entre as columnas e mostran estes resultados mediante letras, ou as comparacións de celas, que utilizan cor ou frechas para identificar unha cela nunha táboa que destaque dalgún xeito.
  • Subtotais.
  • Un ou máis de: porcentaxes, porcentaxes por filas, porcentaxes por columnas, índices ou medias.
  • Tamaños de mostraxe non ponderados (recontos).

Medidas de correlación

editar

O grao de correlación entre as dúas variábeis pódese avaliar mediante unha serie de coeficientes. As seguintes subseccións describen algúns deles. Para unha discusión máis completa dos seus usos, consulte os artigos principais ligados baixo cada título de subsección.

Razón de posibilidades

editar
Artigo principal: Razón de posibilidades.

A razón de posibiliades ten unha expresión sinxela en termos de probabilidades; dada a distribución de probabilidade conxunta:

 

a razón de posibiliades é (OR, odd ratio, en inglés):

 

Coeficiente Phi

editar
Artigo principal: Coeficiente Phi.

Unha medida sinxela, aplicábel só ao caso de táboas de continxencia 2 × 2, é o coeficiente phi ( ) definido por

 

onde χ2 calcúlase como no test khi cadrado de Pearson, e N é o total final de observacións.   varía de 0 (correspondente a ningunha correlación entre as variábeis) a 1 ou −1 (correlación completa ou correlación inversa completa). Daquela, o seu signo é igual ao signo do produto dos elementos da diagonal principal da táboa menos o produto dos elementos fóra da diagonal.  toma o valor mínimo − 1 ou o valor máximo de +1 se e só se cada proporción marxinal é igual a 0,5 (e dúas celas diagonais están baleiras).[2]

V de Cramér e o coeficiente de continxencia C

editar
Artigo principal: V de Cramér.

Dúas alternativas son o coeficiente de continxencia C e o V de Cramér .

As fórmulas para os coeficientes C e V son:

  ,
 

sendo k do número de filas e do número de columnas, o que sexa menor.

Coeficiente de correlación tetracórica

editar
Artigo principal: Correlación policórica.

Outra opción é o coeficiente de correlación tetracórico pero só é aplicábel a táboas 2 × 2. A correlación policórica é unha extensión da correlación tetracórica a táboas que inclúen variábeis con máis de dous niveis.

A correlación tetracórica supón que a variábel subxacente a cada medida dicotómica se distribúe normalmente. O coeficiente proporciona "unha medida conveniente da correlación cando as medicións graduadas se reduciron a dúas categorías".[3]

O coeficiente de correlación tetracórico non debe confundirse co coeficiente de correlación de Pearson calculado asignando, digamos, valores 0,0 e 1,0 para representar os dous niveis de cada variábel (que é matematicamente equivalente ao coeficiente  ).

Coeficiente lambda

editar
Artigo principal: Lambda de Goodman e Kruskal.

O coeficiente lambda é unha medida da forza da correlación das tabulacións cruzadas cando as variábeis se miden a nivel nominal. Os valores van de 0,0 (sen correlación) a 1,0 (a correlación máxima posíbel).

A lambda asimétrica mide a mellora porcentual na predición da variábel dependente. A lambda simétrica mide a porcentaxe de mellora cando a predición se fai en ambas as direccións.

Coeficiente de incerteza

editar
Artigo principal: coeficiente de incerteza.

O coeficiente de incerteza, ou U de Theil, é outra medida para as variábeis a nivel nominal. Os seus valores varían de −1.0 (100% de correlación negativa ou inversión perfecta) a +1,0 (100% de correlación positiva ou de concordancia perfecta). Un valor de 0,0 indica a ausencia de correlación.

A maiores, o coeficiente de incerteza é condicional e unha medida de correlación asimétrica, que se pode expresar como

 .

Esta propiedade asimétrica pode levar a ideas non tan evidentes nas medidas de correlación simétricas.[4]

  1. Karl Pearson, F.R.S. (1904). Mathematical contributions to the theory of evolution. Dulau and Co. 
  2. Ferguson, G. A. (1966). Statistical analysis in psychology and education. New York: McGraw–Hill.
  3. Ferguson, 1966, p. 244
  4. "The Search for Categorical Correlation". 26 decembro de 2019. 

Véxase tamén

editar

Bibliografía

editar

Outros artigos

editar

Ligazóns externas

editar