INVESTIGACIÓN
TABLAS DE CONTINGENCIA O DOBLE ENTRADA:
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.
donde
nij = número de observaciones que tienen el atributo i y j
ni. = número de individuos que tienen el atributo i (marginal i)
n.j = número de individuos que tienen el atributo j (marginal j)
La tabla de contingencia se define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o niveles de los mismos. El ejemplo propuesto es una tabla de contingencia 2x2, ya que tiene dos atributos (FUMA Y SEXO) y cada uno de ellos tiene dos niveles. Si quisiéramos analizar conjuntamente tres variables nominales, como por ejemplo, Fumar, Sexo y Edad, y esta última variable tuviera tres niveles (<20 años, de 20 a 40 años, >40 años), obtendríamos tres tablas como la anterior, una para cada modalidad de edad y la tabla de contingencia tendría una dimensión 3´2´2
Las tablas de contingencia tienen dos objetivos fundamentales:
1) Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).
En esta tabla se puede observar en primer lugar que de los 233 individuos de los que se tiene información 108 son hombres y 125 son mujeres. Asimismo se sabe que 123 de ellos fuman y 110 no. La tabla de contingencia nos permite tener información cruzada sobre ambas variables: de los 108 hombres, 65 fuman y 43 no, mientras que en el caso de las mujeres, 58 fuman y 67 no.
2) A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independiente significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.
Chi-cuadrado
• Es una prueba no paramétrica de comparación de proporciones para dos y más de dos muestras independientes, debe cumplir las siguientes características:
- Los datos se ajustan a la distribución de chi cuadrada
- Nivel nominal de la variable dependiente
• Su función es comparar dos o más de dos distribuciones de proporciones y determinar que la diferencia no se deba al azar (que las diferencia sea estadísticamente significativa).
• Parte de la distribución de frecuencias de dos variables
cruzadas, representadas en las llamadas tablas
cruzadas.
• Se pueden comparar 2 tipos de distribuciones de
frecuencias o proporciones:
- Cuando las dos variables tienen cada una dos valores (2 X 2).
- Cuando alguna o las dos variables tiene más de dos valores.
Para las tablas con dos filas y dos columnas, seleccione Chi-cuadrado para calcular el chi-cuadrado de Pearson, el chi-cuadrado de la razón de verosimilitud, la prueba exacta de Fisher y el chi-cuadrado corregido de Yates (corrección por continuidad). Para las tablas 2x2, se calcula la prueba exacta de Fisher cuando una tabla (que no resulte de perder columnas o filas en una tabla mayor) presente una casilla con una frecuencia esperada menor que 5. Para las restantes tablas 2x2 se calcula el chi-cuadrado corregido de Yates. Para las tablas con cualquier número de filas y columnas, seleccione Chi-cuadrado para calcular el chi-cuadrado de Pearson y el chi-cuadrado de la razón de verosimilitud. Cuando ambas variables de tabla son cuantitativas, Chi-cuadrado da como resultado la prueba de asociación lineal por lineal.
Correlaciones
El concepto de relación o correlación entre dos variables se refiere al grado de parecido o
variación conjunta existente entre las mismas. En este apartado vamos a estudiar un tipo particular de
relación llamada lineal y se limita a considerar únicamente el caso de dos variables cuantitativas
(correlación simple).
Una relación lineal positiva entre dos variables X e Y significa que los valores de las dos
variables varían de forma parecida: los sujetos que puntúan alto en X tienden a puntuar alto en Y y los
que puntúan bajo en X tienden a puntuar bajo en Y. Una relación lineal negativa significa que los
valores de ambas variables varían justamente el revés.
La forma más directa de formarse una primera idea sobre el tipo de relación existente entre dos
variables cuantitativas es a través de un Diagrama de dispersión. Este tipo de diagramas puede
obtenerse mediante: Gráficos, en las diferentes opciones que tiene: Generador de Gráficos, Cuadros
de diálogo antiguos o en Gráficos interactivos.
Para poder cuantificar el grado de relación lineal existente entre dos variables cuantitativas, así como
medir el grado de ajuste de la nube de puntos a una recta, vamos a estudiar coeficientes de correlación.
En el procedimiento de Tablas de Contingencia ya se puede obtener el coeficiente de correlación de
Pearson, en este apartado estudiaremos el procedimiento Correlaciones que incluye tres opciones (1)
Bivariadas, para el estudio de la relación entre dos variables cuantitativas, (2) Parciales, para el
estudio de la relación entre dos variables cuantitativas cuando se controla o elimina el efecto de
terceras variables y (3) Distancias, para el estudio de la relación entre dos variables cualesquiera que
sea su nivel de medida.
2.- CORRELACIONES BIVARIADAS
El procedimiento Correlaciones divariadas ofrece tres tipos de coeficientes: rxy de Pearson,
tau-b de Kendall y rho de Spearman.
Para acceder a este procedimiento, elegir:
- Analizar
- Correlaciones
- Divariadas…
La lista de variables sólo muestra las variables que poseen formato numérico. Es necesario trasladar al menos dos variables.
Coeficientes de Correlación. Pueden seleccionarse uno o más de los tres siguientes coeficientes:
- Peason: Es una medida de la asociación lineal entre dos variables. Los valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la fuerza. Los valores mayores indican que la relación es más estrecha.
- Tau-b de Kendall: Es una medida no paramétrica de asociación para variables ordinales o de rangos que tiene en consideración los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.
- Spearman: Versión no paramétrica del coeficiente de correlación de Pearson, que se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para datos ordinales, o los de intervalo que no satisfagan el supuesto de normalidad. Los valores del coeficiente van de -1 a +1. El signo del coeficiente indica la dirección de la relación y el valor absoluto del coeficiente de correlación indica la fuerza de la relación entre las variables. Los valores absolutos mayores indican que la relación es mayor.
Prueba de significación. Junto con cada coeficiente de correlación, el Visor ofrece la información necesaria para contrastar la hipótesis nula de que el valor poblacional del coeficiente es cero. El SPSS permite seleccionar el nivel crítico deseado:
- Bilateral: Probabilidad de obtener resultados tan extremos como el obtenido, y en cualquier dirección, cuando la hipótesis nula es cierta. Un nivel de significación bilateral (de dos colas) contrasta una hipótesis nula en la que la dirección del efecto no se especifica de antemano.
- Unilateral: Probabilidad de obtener un resultado tan extremo como el observado, y en la misma dirección, cuando la hipótesis nula es cierta. Contrasta la hipótesis nula en la que se especifica con antelación la dirección del efecto.
Marcar las correlaciones significativas. Esta opción, que se encuentra activa por defecto, Marca con un asterisco los coeficientes de correlación significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01.
OPCIONES
El subcuadro Opciones permite solicitar estadísticos adicionales y determinar el tratamiento de los valores perdidos.
3.-CORRELACIONES PARCIALES
El procedimiento de Correlaciones parciales permite estudiar la relación existente entre dos variables cuantitativas controlando el posible efecto de una o más variables cuantitativas extrañas. Un coeficiente de correlación parcial es una técnica de control estadístico que expresa el grado de relación lineal entre dos variables tras eliminar de ambas el efecto atribuible a terceras variables.
Para acceder al procedimiento:
- Analizar
- Correlaciones
- Parciales…
En Variables se trasladan las variables numéricas que se quieren correlacionar y en Controlando para se trasladan las variables cuyo efecto se desea controlar.
Se habla de correlación de primer orden (r12.3), para indicar que se está controlando el efecto de una variable; de segundo orden (r12.34 ), para indicar que se está controlando el efecto de dos variables; etc.
Prueba de significación. Es exactamente como en Bivariadas pero para los coeficientes parciales, dando opción a elegir el tipo de nivel crítico deseado.
Mostrar el nivel de significación real. Se muestran la probabilidad y los grados de libertad para cada coeficiente. Es una opción activa por defecto, cuando se desactiva el Visor muestra un asterisco al lado de los coeficientes de correlación significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01.
OPCIONES
El subcuadro Opciones permite solicitar estadísticos adicionales y determinar el tratamiento de los valores perdidos.
4.- DISTANCIAS
Los coeficientes de correlación vistos son formas de cuantificar la distancia entre dos variables, pero existen otras muchas formas de hacerlo. El procedimiento Distancias incluye un gran número de medidas que se diferencian, básicamente, por el tipo de datos para el que han sido diseñadas. Estas medidas pueden utilizarse tanto para obtener distancias entre variables como entre casos. Llamaremos elemento tanto a los casos como a las variables.
Para acceder al procedimiento:
- Analizar
- Correlaciones
- Distancias…
En Variables se trasladan las variables cuya distancia se desea calcular (o las variables en las que debe basarse la distancia entre casos).
En Etiquetar los casos mediante: Por defecto, en los resultados los casos se identifican mediante el número de caso. De manera opcional, puede utilizar los valores de una variable de cadena para identificar los casos.
Calcular distancias. El procedimiento permite calcular distancias entre casos y entre variables, en ambos opciones las distancias se calculan a partir de las puntuaciones de los casos en el conjunto de variables seleccionadas.
Medida. Las medidas de distancias están agrupadas en dos bloques: Disimilaridad y Similaridad. El botón Medidas... de este recuadro conduce a un subcuadro de diálogo que permite elegir la media de distancia que se desea utilizar, tiene dos versiones (que se diferencian por el tipo de medida que ofrecen) dependiendo de la opción marcada en el recuadro:
- Disimilaridades: Medidas de diferencias o lejanía. Los valores más altos indican que los elementos son muy distintos o que se encuentran muy alejados.
- Similaridades: Medidas de parecido o cercanía. Los valores más altos indican que los elementos son muy parecidos o que se encuentran muypróximos.
Coeficiente de incertidumbre
COEFICIENTE DE INCERTIDUMBRE (THEIL, 1970): Es una medida semejante a lambda y tau en
Cuanto a su concepción de la asociación de las variables, en relación a la capacidad predictiva y la
disminución del error de dicha predicción.
La diferencia estriba en su cálculo ya que en este caso la expresión de estos coeficientes depende de
toda la distribución y no sólo de los valores modales, por lo que sólo toma el valor 0 en casos de total
independencia. Ésta es su ventaja respecto a lambda, pero es más difícil de interpretar.
Oscila entre 0 y 1.
Posee dos versiones asimétricas (dependiendo de cuál de las dos variables se considera
independiente) y una simétrica (cuando no se hace distinción entre variable dependiente e
independiente).
Es la medida de asociación que refleja la reducción proporcional en el error cuando se utilizan los valores de una variable para pronosticar los valores de la otra variable. Por ejemplo, un valor de 0,83 indica que el conocimiento de una variable reduce en un 83% el error al pronosticar los valores de la otra variable. El programa calcula tanto la versión simétrica como la asimétrica del coeficiente de incertidumbre.
REFERENCIA BIBLIOGRAFICAS
Escuela Superior de Informática. (s/f). Prácticas de Estadística: Correlaciones con SPSS.
Eva Medina Moral & José Vicéns Otero.(2005). Análisis de datos cualitativos
Juárez, Villatoro & López, (2011). Chi cuadrada (X2). Consulta realizada el 28 de Marzo de 2017 en http://www.rincondepaco.com.mx/rincon/Inicio/Apuntes/Proyecto/archivos/Documentos/Chi.pdf
Santiago de la Fuente Fernandez. (2011). Análisis de Variables Categóricas: Tablas de Contingencia. Universidad Autónoma de Madrid.
No hay comentarios:
Publicar un comentario