Sobre Datos y Ciclos

El otro día me encontré en el trabajo un problema que aparentaba ser sencillo: obtener la hora promedio en la que cierto evento ocurría. Parecía ser sencillo, solamente tenía que tomar el promedio aritmético y problema resuelto. Si razonáramos de esta manera, ¿cuál sería la media entre las 23 horas y la 1 hora? Según la estadística convencional, si tomamos las 24 horas como el origen de la recta, la media aritmética de los datos sería

$$ \bar{X} = \frac{23 + 1}{2} = 12.$$

Pero la hora «promedio» que estaríamos esperando serían las 0 horas. ¡Totalmente al revés! La pregunta natural sería cómo obtener una medida de centralidad en datos que presentan ciclos.

Una forma bastante razonable de atacar este problema es a partir de la estadística direccional. En este contexto, los datos $x$ son representados como un vector unitario $ \vec{u}$ con ángulo $ \theta_{x} = 2 \pi \lceil{\frac{x}{P}}\rceil $ donde $x \in [0,P).$ En este caso, $P$ denota la periodicidad de los datos. Entonces, para representar $x$, tendríamos la siguiente transformación:
$$ T(x) = [\begin{array}{c} \cos{\theta_{x}} \\ \sin{\theta_{x}} \end{array}] = \vec{u},$$
o simplemente $\theta_{x}$. Ambas definiciones en este contexto son equivalentes.

Un problema aparente sería cómo definir el punto de origen de los datos circulares y su dirección. Por convención 1Kanti V. Mardia y Peter F. Jupp.Directional Statistics. John Wiley & Sons Ltd, Inglaterra ,2000., los datos cíclicos empiezan en la coordenadas $(\cos(0),\sin(0))$ y tienen una dirección en contra de las manecillas del reloj, exactamente igual a como se miden los ángulos.

Medias direccionales

Supongamos que tenemos $\vec{u}_{1},…,\vec{u}_n$ vectores unitarios con sus respectivos ángulos $\theta_{i}$ con $i = 1,…,n$. Entonces, la dirección media $\bar{\theta}$ es la dirección central de la «masa» de los vectores. Como las coordenadas cartesianas de $\vec{u}$ están dadas por $(\cos{\theta},\sin{\theta})$, entonces la dirección promedio $(\bar{C},\bar{S})$ de las coordenadas estarán dadas por

$$\bar{C} = \frac{1}{n}\sum_{i = 1}^{n}\cos{\theta_{i}} ,\quad \bar{S} = \frac{1}{n}\sum_{i = 1}^{n}\sin{\theta_{i}}. $$

Pero por la identidad pitagórica en el círculo unitario sabemos que

$$\bar{C} = \bar{R} \cos{\bar{\theta}} \ \text{y} \ \bar{S} = \bar{R} \sin{\bar{\theta}},$$

donde $\bar{R}$ es el radio de la dirección media, y el cual está dado por

$$ \bar{R}^2 = \bar{C}^2 + \bar{S}^2.$$
Despejando de 2, la dirección media $\bar{\theta}$ está dada por

$$ \bar{\theta} =
\begin{cases}
\arctan{\frac{\bar{S}}{\bar{C}}}&\quad\text{si} \quad \bar{C} \geq 0, \\
\arctan{\frac{\bar{S}}{\bar{C}}} + \pi &\quad\text{si}\quad \bar{C} < 0. \\
\end{cases}$$

Notemos además que

$$\begin{split}
\frac{1}{n}\sum_{i = 1}^{n}{\cos{(\theta_{i} – \bar{\theta})}} & = \frac{1}{n}\sum_{i = 1}^{n}{\cos{\theta_{i}} \cos{\bar{\theta}} + \sin{\theta_{i}}\sin{\bar{\theta}}} \\
& = \bar{C} \cos{\bar{\theta}} + \bar{S} \sin{\bar{\theta}} \\
& = \bar{R}(\cos^{2}{\bar{\theta}} + \sin^{2}{\bar{\theta}}) \\
& = \bar{R}.
\end{split}$$

De igual forma que

$$\begin{split}
\frac{1}{n}\sum_{i = 1}^{n}{\sin{(\theta_{i} – \bar{\theta})}} & = \frac{1}{n}\sum_{i = 1}^{n}{\sin{\theta_{i}} \cos{\bar{\theta}} + \sin{\bar{\theta}} \cos{\theta_{i}}}\\
& = \bar{S} \cos{\bar{\theta}} – \bar{C} \sin{\bar{\theta}} \\
& = 0.
\end{split}$$

Vemos que las ecuaciones 3 y 4 son análogas a

$$\frac{1}{n}\sum_{i = 1}^{n}{(x_{i} – \bar{x})} = 0 .$$

Es decir, ¡la suma de las desviaciones alrededor de la media es cero! Exactamente la misma propiedad que en estadística matemática. 2Kanti V. Mardia y Peter F. Jupp.Directional Statistics. John Wiley & Sons Ltd, Inglaterra ,2000.

Propiedad de invarianza ante rotaciones

¿Y si consideráramos ahora
$$ \bar{\theta}^{*} = \frac{1}{n} \sum_{i = 1}^{n}{\theta_{i}} \ ?$$
¡Notemos que está mal definido! Puesto que $\bar{\theta}^{*}$ depende totalmente de dónde se define el punto de origen de los datos. En cambio, $\bar{\theta}$ es invariante ante rotaciones. Siguiendo la metodología de Jammalamadaka, notamos que, si los datos son desplazados por una constante, también la media direccional será desplazada por esa misma constante; ya que, si tomamos una nueva dirección inicial, $\alpha$, entonces nuestros datos corresponderían a los ángulos
$$ \theta_{i}’ = \theta_{i} – \alpha.$$
Por lo tanto, tendríamos la «nueva» dirección promedio $(\bar{C}’,\bar{S}’)$ dada por

$$\begin{split}
\bar{S}’ & = \frac{1}{n} \sum{ \sin{\theta_{i}’}} \\
& = \frac{1}{n} \sum{(\sin{\theta_{i}} \cos{\alpha} – \sin{\alpha} \cos{\theta_{i}})} \\
& = \cos{\alpha} \bar{S} – \sin{\alpha} \bar{C} \\
& = \bar{R} \sin{(\bar{\theta} – \alpha)}.
\end{split}$$

Análogamente se tiene que
$$ \bar{C}’ = \bar{R} \cos{(\bar{\theta} – \alpha)}.$$
Pero, además

$$\bar{R}’^{2} = \bar{C}’^{2} + \bar{S}’^{2} = \bar{R}^{2}.$$

Por lo tanto, por las ecuaciones 2 y 5 para $(\bar{C}’,\bar{S}’)$, tenemos que la dirección media de los ángulos $\theta_{i}’$ es
$$ \bar{\theta} – \alpha.$$

También por la ecuación 5, la medida de centralidad de los datos desplazados, $\bar{R}’$, es exactamente la misma a la de los datos originales. De este modo, concluimos que la media direccional es invariante ante rotaciones y su medida de centralidad tampoco es afectada. Esta propiedad es sumamente fuerte, puesto que, sin importar el corte inicial de la información, siempre se llega al mismo resultado.

La estadística direccional es un área de estudio muy reciente y con un alto grado de aplicación. Los conceptos estadísticos de la recta lineal ahora se transforman para circunferencias, esferas e hiperesferas. Así como hay funciones de distribución sobre la recta, existen distribuciones sobre circunferencias donde las colas se enrollan dentro del círculo. La utilidad de este enfoque estadístico se extiende desde las ciencias de la tierra, meteorología, biología, hasta la psicología, física y finanzas. Invito al lector a adentrarse en este universo.

Referencias

  • Rao Jammalamadaja S y A SenGupta.Topics in circular statistics. Wiley series in proba-bility and statistics, Universidad de California, 2001.
  • Kanti V. Mardia y Peter F. Jupp.Directional Statistics. John Wiley & Sons Ltd, Inglaterra ,2000.

Bibliografia   [ + ]

1, 2. Kanti V. Mardia y Peter F. Jupp.Directional Statistics. John Wiley & Sons Ltd, Inglaterra ,2000.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Demuestra que no eres un robot:
*