ESTADÍSTICA DESCRIPTIVA
La aplicación del tratamiento estadístico tiene dos fases fundamentales:
1. Organización y análisis inicial de los datos recogidos.
2. Extracción de conclusiones válidas y toma de decisiones razonables a partir de ellos.
Los objetivos de la Estad´ıstica Descriptiva son los que se abordan en la primera de estas fases. Es decir, su misión es ordenar, describir y sintetizar la información recogida. En este proceso ser´a necesario establecer medidas cuantitativas que reduzcan a un número manejable de parámetros el conjunto (en general grande) de datos obtenidos.
La realizaci´on de gr´aficas (visualización de los datos en diagramas) también forma parte de la Estadística Descriptiva dado que proporciona una manera visual directa de organizar la información.
La finalidad de la Estad´ıstica Descriptiva no es, entonces, extraer conclusiones generales sobre el fenómeno que ha producido los datos bajo estudio, sino solamente su descripci´on (de ah´ı el nombre).
“La Estadística Descriptiva es el estudio que incluye la
obtención, organización, presentación y descripción de información numérica”.
Bajo el término “Estadística Descriptiva” se engloban las técnicas que nos permitirán realizar un análisis elemental de las observaciones experimentales observadas.
Se subdivide en dos bloques :
1º Estadística primaria : Obtenido un grupo de observaciones experimentales, este apartado nos enseña a ordenarlas adecuadamente, de modo que se ofrezca una información lo más clara posible.
2º Estadística derivada o secundaria : Con los datos observados realizaremos ciertos cálculos, obteniendo así unas medidas. Este bloque temático nos enseña a interpretarlas.
PROCEDIMIENTO A SEGUIR EN UN ESTUDIO ESTADÍSTICO
El proceso seguido en el estudio estadístico de una cierta característica o variable, puede subdividirse en tres pasos sucesivos :
A RECOGIDA DE DATOS : Planteado el test o encuesta oportuno y recogidos los datos que correspondan, el primer análisis que realizaremos es el del tipo de variable que pretendemos estudiar (Cualitativa o Cuantitativa ; Discreta o Continua). Esto condicionará en gran medida su posterior tratamiento.
B ORGANIZACIÓN DE LOS DATOS : Determinado el modo de agrupamiento de las observaciones, procedemos a su recuento, construyendo la tabla de frecuencias. Posteriormente podremos visualizar tales frecuencias de forma gráfica con el diagrama estadístico apropiado.
C ANÁLISIS FINAL : La obtención de muy diversas conclusiones respecto de la variable estudiada, se podrá realizar con auxilio de los diferentes parámetros estadísticos (de centralización , posición , dispersión , etc.)
VARIABLES ESTADÍSTICAS. CLASIFICACIÓN
El aspecto que deseamos estudiar (edad, sexo, peso, ...) recibe el nombre de VARIABLE ESTADÍSTICA. A lo largo de esta unidad observaremos, que las técnicas estadísticas a seguir serán diferentes según el tipo de variable objeto de estudio.
La clasificación más tradicional de las variables estadísticas es la siguiente :
CUALITATIVAS
Los valores de las observaciones quedan expresados por características o atributos.
Por ejemplo : Estado civil ; Color preferido ; Nivel de estudios ; Raza ; ...
Dentro de ellas podremos subdividirlas en función de que puedan ser ordenadas (Nivel de estudios) o no tenga sentido una determinada ordenación que se establezca (Color preferido, Razas, ...).
CUANTITATIVAS
Los valores de las observaciones son numéricos (cuantificables) y, en consecuencia, ordenables.
A su vez las variables cuantitativas se subdividen en dos tipos :
DISCRETAS : Toman valores concretos (Nº de hijos : 0, 1, 2, ...)
CONTINUAS : Pueden tomar cualquier valor de un cierto intervalo (Peso ; Estatura ; ...).
GRÁFICOS ESTADÍSTICOS
La norma que hemos de seguir en la construcción de un gráfico estadístico es siempre : "La zona que identifica a cada valor será proporcional a su frecuencia"
Los diagramas usuales son los que se describen a continuación.
A) Diagramas de barras: Para variables cualitativas o cuantitativas no agrupadas en intervalos.
FUNDAMENTO : Sobre un eje (normalmente el horizontal) marcamos los valores de la variable, dibujando sobre cada uno de ellos una barra cuya longitud sea proporcional a la frecuencia que se esté visualizando. Si la variable representada es cuantitativa, enlazando los extremos de las barras obtendremos el POLÍGONO DE FRECUENCIAS, denominado PERFIL ORTOGONAL para cualitativas ordenables .
B) Histogramas: Representativo de las variables agrupadas en intervalos.
FUNDAMENTO : Sobre el eje horizontal marcamos los distintos intervalos, dibujando sobre cada uno de ellos un rectángulo cuya área sea proporcional a la frecuencia que se esté visualizando (Si todos los intervalos tienen la misma amplitud, nos bastará con que la altura de los rectángulos sea proporcional a las frecuencias).
POLÍGONOS DE FRECUENCIAS : Si la frecuencia representada no es acumulada, enlazamos los puntos medios de los extremos superiores de los rectángulos. Para frecuencias acumuladas, el polígono de frecuencias se obtiene de la forma indicada en el gráfico.
C) Diagramas de sectores: Utilizable en cualquier tipo de variable.
FUNDAMENTO : Dividimos el círculo en sectores circulares, de modo que la amplitud de cada sector, sea proporcional a la frecuencia. Junto a cada sector, se suele indicar el valor representado. Es aconsejable la expresión de las amplitudes de los sectores en % (porcentajes p ).
D) Pictogramas: Utilizable en todo tipo de variables, especialmente con las cualitativas.
FUNDAMENTO : Es el mismo que se sigue para la construcción de los diagramas de barras y histogramas. La diferencia estriba en que, en lugar de dibujar una barra o un rectángulo, se dibuja una figura que hace referencia al problema objeto de estudio.
E) Diagramas de áreas: Independiente de los polígonos de frecuencias (descritos en los diagramas de barras y histogramas).
FUNDAMENTO : Indica la evolución de los valores de la variable, consistiendo en la visualización del área encerrada bajo el polígono de frecuencias. Para ello, se conecta dicho polígono con el eje de la variable (el horizontal en el gráfico), tanto a la izquierda del primer valor como a la derecha del último.
Componentes o Medidas características de una distribución
Se definen entonces diversas medidas que serán capaces de resumir toda la información recogida a un pequen˜o nu´mero de valores. Estas medidas resumen van a permitir comparar nuestra muestra con otras y dar una idea rápida de cómo se distribuyen los datos. Es evidente que todas estas medidas solo pueden definirse para variables cuantitativas.
- Medidas de Centralización:
Entre las medidas características de una distribución destacan las llamadas medidas de centralización, que nos indicarán el valor promedio de los datos, o en torno a qu´e valor se distribuyen estos.
- MEDIA ARITMÉTICA : Es el resultado de dividir la suma de todas las observaciones entre el número de ellas. La media representa entonces una especie de centro de gravedad, o centro geométrico, del conjunto de medidas. Una caracter´ıstica importante de la media como medida de tendencia central es que es muy poco robusta, es decir depende mucho de valores particulares de los datos. La media aritm´etica es por tanto muy dependiente de observaciones extremas.
- MEDIA GEOMÉTRICA, ARITMÉTICA Y CUADRÁTICA
- MEDIANA: Una medida de centralización importante es la mediana Me. Se define ´esta como una medida central tal que, con los datos ordenados de menor a mayor, el 50% de los datos son inferiores a su valor y el 50% de los datos tienen valores superiores. Es decir, la mediana divide en dos partes iguales la distribución de frecuencias o, gr´aficamente, divide el histograma en dos partes de áreas iguales. Vamos a distinguir diversos casos para su cálculo.
- MODA: Se define la moda Mo de una muestra como aquel valor de la variable que tiene una frecuencia máxima. En otras palabras, es el valor que más se repite. Hay que indicar que puede suceder que la moda no sea única, es decir que aparezcan varios máximos en la distribución de frecuencias.
- CUARTILES, DECILES Y PERCENTILES: Definimos ahora los cuartiles como los tres valores que dividen la muestra en cuatro partes iguales. As´ı el primer cuartil Q1/4 ser´a la medida tal que el 25% de los datos sean inferiores a su valor y el 75% de los datos sean superiores. Los deciles como aquellos valores de la variable que dividen la muestra, ordenada, en 10 partes iguales. De la misma manera se definen los percentiles, también llamados centiles, como aquellos valores Pk (con k =1 ,2,...,99) que dividen la muestra en 100 partes iguales.
- Medidas de Dispersión
Estas nos indicarán la variabilidad de los datos en torno a su valor promedio, es decir si se encuentran muy o poco esparcidos en torno a su centro. Se pueden definir entonces, diversas medidas de desviación o dispersión, siendo ´estas fundamentales para la descripci´on estad´ıstica de la muestra.
- RECORRIDOS: Una evaluación rápida de la dispersión de los datos se puede realizar calculando el recorrido (también llamado rango), o diferencia entre el valor máximo y míınimo que toma la variable estadística.
- AMPLITUD SEMI-INTERCUARTÍLICA : Esta medida de dispersión se basa en medidas de posición (Cuartiles),.Su empleo tendrá sentido en el supuesto de imposibilidad de cálculo de la media. El no tomar en consideración a la totalidad de las observaciones, hace pensar que esta medida es poco representativa. Por ello se intenta definir las medidas de dispersión, de modo que sean el promedio de las separaciones de cada valor respecto de uno tomado como referencia (la MEDIA).
- DESVIACIÓN MEDIA: Es la media de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmética, consideradas en valor absoluto. Sustituyendo la media por la moda o la mediana, definiremos las desviaciones medias respecto de la moda y de la mediana.
- VARIANZA : Es la media de los cuadrados de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmética.
- DESVIACIÓN TÍPICA : Es la raíz cuadrada de la varianza. Con ello corregimos el haber tomado cuadrados de separaciones en el cálculo de la varianza. Esta medida de dispersión es la más característica.
- COEFICIENTE DE VARIACIÓN : Mide la representatividad de la media. Valores extremos del mismo nos llevarán a concluir que la media no es representativa, es decir, existirán valores entre las observaciones que se separan significativamente de las demás. Sólo puede ser utilizado cuando los valores de la variable toman valores "normales". Es decir, no son muy elevados ni muy pequeños, ya que una media próxima a cero o muy alta darían valores nulos o infinitos al coeficiente. Si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayoría), el coeficiente de variación permite comparar la dispersión de dos series estadísticas : mayor coeficiente indica menor homogeneidad, o lo que es lo mismo, mayor dispersión o variabilidad.
- Asimetría y curtosis
La descripci´on estad´ıstica de una muestra de datos no concluye con el c´alculo de su tendencia central y su dispersi´on. Para dar una descripci´on completa es necesario estudiar también el grado de simetría de los datos respecto a su medida central y la concentraci´on de los datos alrededor de dicho valor.
1. COEFICIENTE DE ASIMETRÍA:Se dice que una distribuci´on de medidas es sim´etrica cuando valores de la variable equidistantes, a uno y otro lado, del valor central tienen la misma frecuencia.
Con el fin de cuantificar el grado de asimetría de una distribuci´on se pueden definir los coeficientes de simetría. Aunque no son los únicos, existen dos coeficientes principales:
- Coeficiente de asimetría de Fisher:Se define como el cociente entre el momento de orden 3 respecto a la media y el cubo de la desviación típica
- Coeficiente de asimetría de Pearson. :Su interpretación es similar a la del coeficiente de Fisher, siendo nulo para una distribuci´on sim´etrica (en ese caso media y moda coinciden) y tanto más positivo, o negativo, cuando más sesgada esté distribución hacia la derecha, o hacia la izquierda.
2. COEFICIENTE DE CURTOSIS: Recibe también el nombre de coeficiente de concentración central, midiendo el grado de aplastamiento o apuntamiento de la gráfica de la distribución de la variable estadística. Una mayor concentración de datos en torno al promedio harán que la forma sea alargado, siendo tanto más plana (o aplastada) cuanto mayor sea la dispersión de los mismos. Determina la forma de la distribución, en relación con su grado de aplastamiento.
REFERENCIA BIBLIOGRÁFICA:
Álvarez González, F. Estadística Descriptiva:Métodos Estadísticos Aplicados a las Auditorías Sociolaborales. Consulta realizada el 31 de enero de 2017 en http://www.uco.es/zootecniaygestion/img/pictorex/27_12_49_7.pdf
Gorgas Garcia, J. (2011). Estadistica Basica para estudiantes de ciencia. Departamento de Astrofísica y Ciencias de la Atmósfera. Facultad de Ciencias Físicas. Universidad Complutense de Madrid.
García Mancilla, H.; Matus Parra Juan (S/F). Estadística descriptiva e Inferencial. COLEGIO DE BACHILLERES.
No hay comentarios:
Publicar un comentario