Más artículos

¿Para qué sirven los diagramas de dispersión?

Escrito por: Doug Bennett

Actualizado en: November 20, 2021

Los diagramas de dispersión se usan para determinar las correlaciones generales entre las variables.

Creatas/Creatas/Getty Images

Los diagramas de dispersión tienen un rol muy útil a la hora de expresar los resultados numéricos de un experimento. Estos gráficos proporcionan una distribución visual de los puntos de datos, cada uno de ellos representado por una marca o punto. Aunque los gráficos de líneas son parecidos, los puntos de datos en un diagrama de dispersión no están conectados directamente. En su lugar, sirven para mostrar la tendencia general representada por los datos.

Objetivo de un diagrama de dispersión

Los diagramas de dispersión se usan para determinar si hay una relación entre las variables. Si los datos indican que hay relación entre variables, esta relación se llama correlación. Los gráficos de líneas se usan para visualizar variaciones localizadas entre puntos individuales de datos, mientras que los diagramas de dispersión se usan para visualizar la relación general de los datos como grupo. Los diagramas de dispersión también se conocen como diagramas de esparcimiento o gráficos de esparcimiento.

Diseño de un diagrama de dispersión

Los diagramas de dispersión usan coordenadas cartesianas para mostrar valores de un conjunto de datos basándose en dos variables. El eje X representa la variable independiente, o parámetro de control. La variable (por ejemplo, el tiempo o la temperatura) aumenta o disminuye sistemáticamente. El eje Y puede representar una variable dependiente o independiente. Si la variable es dependiente, el gráfico mostrará el grado de causalidad. Si es independiente, mostrará el grado de correlación.

Correlación o causalidad

El objetivo de un diagrama de dispersión es conocer la correlación (por ejemplo, causalidad) entre variables. Esto se consigue trazando una línea de mejor ajuste, a la que se conoce como línea de tendencia o regresión. Esta línea representa la solución matemática de la relación entre variables. La línea de regresión puede revelar tres tipos de relaciones. Si los valores de Y aumentan en una función de X, hay una correlación positiva (aumenta). Si los valores de Y se reducen en una función de X, hay una correlación negativa (cae). Si los puntos de datos son aleatorios, no hay correlación entre variables. Las correlaciones también pueden expresarse como curvas. Estas líneas con tendencia de curva suelen ser líneas de segundo (cúbico) o tercer orden (cuadrático).

Fuerza de la correlación

Una constante matemática, a veces llamada "bondad de ajuste", refleja el grado de seguridad con el que esta correlación, o solución, se ajusta a los datos. Con todos los datos experimentales, hay siempre una determinada cantidad de error inherente en el proceso de recogida de datos. Este nivel, o margen, de error está reflejado en el valor de la constante. La constante, o coeficiente de regresión, se suele expresar como "R". Si todos los datos encajan perfectamente en la solución, el coeficiente de regresión (R) sería 1. Las soluciones que tienen un valor R mayor de 0,7 se suelen considerar correlaciones fuertes, aunque la ciencia suele preferir coeficientes mayores de 0,99 para establecer la seguridad de la relación. A medida que se reduce el valor de R, se reduce el grado de seguridad de que esta correlación teórica es válida y precisa en el mundo real. Los tamaños de muestra pequeños también pueden afectar negativamente al coeficiente de regresión.