Táboa de continxencia

En estatística, unha táboa de continxencia (tamén coñecida como táboa cruzada) é un tipo de táboa en formato matricial que mostra a distribución de frecuencias multivariante das variábeis. Son moi utilizadas na investigación de enquisas, intelixencia empresarial, enxeñaría e investigación científica. Ofrecen unha imaxe básica da interrelación entre dúas variábeis e poden axudar a atopar interaccións entre elas. O termo táboa de continxencia foi usado por primeira vez por Karl Pearson en "On the Theory of Contingency and Its Relation to Association and Normal Correlation",^[1] parte da Drapers' Company Research Memoirs Biometric Series I publicada en 1904.

Un problema crucial da estatística multivariante é atopar a estrutura de dependencia (directa) subxacente ás variábeis contidas nas táboas de continxencia de dimensión alta. Se se revelan algunhas das independencias condicionais, mesmo o almacenamento dos datos pódese facer dun xeito máis intelixente (véxase Lauritzen (2002)). Para iso pódese utilizar os conceptos da teoría da información, que obteñen a información só da distribución de probabilidade, que se pode expresar facilmente a partir da táboa de continxencia mediante as frecuencias relativas.

Exemplo

Supoñamos que hai dúas variábeis, o sexo (masculino ou feminino) e a man (destro ou zurdo). Supoña a maiores que temos unha mostraxe de 100 individuos aleatorios dunha poboación moi grande como parte dun estudo sobre as diferenzas de sexo e a man utilizada. Pódese crear unha táboa de continxencia para mostrar o número de individuos que son homes destros e zurdos, mulleres destros e zurdos. Esta táboa de continxencia móstrase a continuación.

Man usada Sexo	Destro	Zurdo	Total
Masculino	43	9	52
Feminino	44	4	48
Total	87	13	100

O número de machos, femias e individuos destros e zurdos chámanse totais marxinais. O total final (o número total de persoas representadas na táboa de continxencia) é o número que aparece na esquina inferior dereita.

A táboa permite que os usuarios vexan dunha ollada que a proporción de homes que son destros é aproximadamente a mesma que a proporción de mulleres que son destras aínda que as proporcións non son idénticas. A forza da correlación pódese medir pola razón de posibilidades, e a razón de posibilidades da poboación da mostraxe. A significación da diferenza entre as dúas proporcións pódese avaliar mediante varios tests estatísticos, incluíndo o test khi cadrado de Pearson, o test G, o test exacto de Fisher, o test de Boschloo e o test de Barnard, sempre que as entradas da táboa representen individuos aleatoriamente escollidos da poboación sobre a que se deben extraer conclusións. Se as proporcións dos individuos nas distintas columnas varían significativamente entre as filas (ou viceversa), dise que existe unha continxencia entre as dúas variábeis. Noutras palabras, as dúas variábeis non son independentes. Se non hai continxencia, dise que as dúas variábeis son independentes .

O exemplo anterior é o tipo máis sinxelo de táboa de continxencia, unha táboa na que cada variábel só ten dous niveis. En principio, pódese utilizar calquera número de filas e columnas. Tamén pode haber máis de dúas variábeis, mais as táboas de continxencia de orde superior son difíciles de representar visualmente.

Contidos estándar dunha táboa de continxencia

Varias columnas (historicamente foron deseñadas para usar todo o espazo en branco dunha páxina impresa). Cando cada fila refírese a un subgrupo específico da poboación (neste caso homes ou mulleres).
Tests de significancia. Normalmente, as comparacións de columnas, que proban as diferenzas entre as columnas e mostran estes resultados mediante letras, ou as comparacións de celas, que utilizan cor ou frechas para identificar unha cela nunha táboa que destaque dalgún xeito.
Subtotais.
Un ou máis de: porcentaxes, porcentaxes por filas, porcentaxes por columnas, índices ou medias.
Tamaños de mostraxe non ponderados (recontos).

Medidas de correlación

O grao de correlación entre as dúas variábeis pódese avaliar mediante unha serie de coeficientes. As seguintes subseccións describen algúns deles. Para unha discusión máis completa dos seus usos, consulte os artigos principais ligados baixo cada título de subsección.

Razón de posibilidades

Artigo principal: Razón de posibilidades.

A razón de posibiliades ten unha expresión sinxela en termos de probabilidades; dada a distribución de probabilidade conxunta:

{\begin{array}{c|cc}&B=1&B=0\\\hline A=1&p_{11}&p_{10}\\A=0&p_{01}&p_{00}\end{array}}

a razón de posibiliades é (OR, odd ratio, en inglés):

OR={\frac {p_{11}p_{00}}{p_{10}p_{01}}}.

Coeficiente Phi

Artigo principal: Coeficiente Phi.

Unha medida sinxela, aplicábel só ao caso de táboas de continxencia 2 × 2, é o coeficiente phi ( $\phi$ ) definido por

\phi =\pm {\sqrt {\frac {\chi ^{2}}{N}}},

onde $χ 2$ calcúlase como no test khi cadrado de Pearson, e N é o total final de observacións. $\phi$ varía de 0 (correspondente a ningunha correlación entre as variábeis) a 1 ou −1 (correlación completa ou correlación inversa completa). Daquela, o seu signo é igual ao signo do produto dos elementos da diagonal principal da táboa menos o produto dos elementos fóra da diagonal. $\phi$ toma o valor mínimo − 1 ou o valor máximo de +1 se e só se cada proporción marxinal é igual a 0,5 (e dúas celas diagonais están baleiras).^[2]

V de Cramér e o coeficiente de continxencia C

Artigo principal: V de Cramér.

Dúas alternativas son o coeficiente de continxencia C e o V de Cramér .

As fórmulas para os coeficientes C e V son:

C={\sqrt {\frac {\chi ^{2}}{N+\chi ^{2}}}}

,

V={\sqrt {\frac {\chi ^{2}}{N(k-1)}}},

sendo k do número de filas e do número de columnas, o que sexa menor.

Coeficiente de correlación tetracórica

Artigo principal: Correlación policórica.

Outra opción é o coeficiente de correlación tetracórico pero só é aplicábel a táboas 2 × 2. A correlación policórica é unha extensión da correlación tetracórica a táboas que inclúen variábeis con máis de dous niveis.

A correlación tetracórica supón que a variábel subxacente a cada medida dicotómica se distribúe normalmente. O coeficiente proporciona "unha medida conveniente da correlación cando as medicións graduadas se reduciron a dúas categorías".^[3]

O coeficiente de correlación tetracórico non debe confundirse co coeficiente de correlación de Pearson calculado asignando, digamos, valores 0,0 e 1,0 para representar os dous niveis de cada variábel (que é matematicamente equivalente ao coeficiente $\phi$ ).

Coeficiente lambda

Artigo principal: Lambda de Goodman e Kruskal.

O coeficiente lambda é unha medida da forza da correlación das tabulacións cruzadas cando as variábeis se miden a nivel nominal. Os valores van de 0,0 (sen correlación) a 1,0 (a correlación máxima posíbel).

A lambda asimétrica mide a mellora porcentual na predición da variábel dependente. A lambda simétrica mide a porcentaxe de mellora cando a predición se fai en ambas as direccións.

Coeficiente de incerteza

Artigo principal: coeficiente de incerteza.

O coeficiente de incerteza, ou U de Theil, é outra medida para as variábeis a nivel nominal. Os seus valores varían de −1.0 (100% de correlación negativa ou inversión perfecta) a +1,0 (100% de correlación positiva ou de concordancia perfecta). Un valor de 0,0 indica a ausencia de correlación.

A maiores, o coeficiente de incerteza é condicional e unha medida de correlación asimétrica, que se pode expresar como

U(X|Y)\neq U(Y|X)

.

Esta propiedade asimétrica pode levar a ideas non tan evidentes nas medidas de correlación simétricas.^[4]

Notas

↑ Karl Pearson, F.R.S. (1904). Mathematical contributions to the theory of evolution. Dulau and Co.
↑ Ferguson, G. A. (1966). Statistical analysis in psychology and education. New York: McGraw–Hill.
↑ Ferguson, 1966, p. 244
↑ "The Search for Categorical Correlation". 26 decembro de 2019.

Véxase tamén

Bibliografía

Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 381130.
Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (Second ed.). New York: Springer-Verlag. pp. xvi+483. ISBN 0-387-98247-7. MR 1633357.
Lauritzen, Steffen L. (1979). Lectures on Contingency Tables (Aalborg University) (PDF) (4th edition (first electronic edition), 2002 ed.).
Gokhale, D. V.; Kullback, Solomon (1978). The Information in Contingency Tables. Marcel Dekker. ISBN 0-824-76698-9.

Outros artigos

Coeficiente de correlación.

Ligazóns externas

On-line analysis of contingency tables: calculator with examples
Interactive cross tabulation, chi-squared independent test, and tutorial
Fisher and chi-squared calculator of 2 × 2 contingency table
More Correlation Coefficients
Nominal Association: Phi, Contingency Coefficient, Tschuprow's T, Cramer's V, Lambda, Uncertainty Coefficient, March 24, 2008, G. David Garson, North Carolina State University
CustomInsight.com Cross Tabulation

[1] Karl Pearson, F.R.S. (1904). Mathematical contributions to the theory of evolution. Dulau and Co.

[2] Ferguson, G. A. (1966). Statistical analysis in psychology and education. New York: McGraw–Hill.

[3] Ferguson, 1966, p. 244

[4] "The Search for Categorical Correlation". 26 decembro de 2019.

[1]

[2]

[3]

[4]