¿De qué manera suceden los eventos raros? Una introducción a la teoría de Grandes Desviaciones.

Las cosas podían haber sucedido de cualquier otra manera y, sin embargo, sucedieron así
Miguel Delibes

Grandes Desviaciones

A la humanidad siempre le ha interesado poder predecir el mundo y es, de hecho, este motivo por el cual muchas teorías han surgido. En el caso particular de la teoría de la probabilidad se dice que la motivación inicial fueron los juegos de azar.1 Cuando la teoría se comenzó a desarrollar y surgieron el sinfín de aplicaciones los matemáticos comenzaron a cuestionarse la naturaleza de los eventos raros,2 es decir, de los eventos que, en primera instancia, pueden ser considerados como poco probables. Pero ¿qué significa que algo sea poco probable? regresemos por un instante a los juegos de azar. Tomemos una moneda justa $($la probabilidad de que al lanzarla obtengamos águila es $\frac{1}{2}$, lo mismo para sol$)$ y comencemos a realizar lanzamientos: puede que en los primeros cinco lanzamiento obtengamos cuatro soles y un águila; sin embargo, después de una cantidad “suficientemente grande’’ la proporción de águilas y soles se empareja, es decir, obtenemos la misma cantidad de soles y de águilas. Formalmente esto se muestra utilizando la ley de los grandes números, así que comencemos a introducir un poco de matemáticas.

¿Qué es un evento raro?

Comencemos3 con $ \{X_i\}_{i\in\mathbb{N}} $ una sucesión de variables aleatorias independientes e idénticamente distribuidas sobre un espacio de probabilidad $ (\mathbb{R}, $ $ \mathcal{B}(\mathbb{R}),\mathbb{P}) $ con $ \mathcal{B}(\mathbb{R}) $ la $ \sigma $-álgebra de Borel en $ \mathbb{R} $, $ \mathbb{E}(X_1)=\mu\in\mathbb{R} $ y $ \mathop{\mathrm{Var}}(X_1)=\sigma^2\in(0,\infty) $. Sea
$$ S_n = \sum_{i=1}^{n} X_i. $$

Ley de los Grandes Números (LLN).
$$ \lim_{n\rightarrow\infty}\frac{1}{n}S_n=\mu \quad \text{casi seguramente}, $$

lo cual quiere decir que
$$ \mathbb{P}\Biggl(\lim_{n\rightarrow\infty}\frac{1}{n}S_n=\mu\Biggr)=1. $$

Ahora, ¿qué sucede si el promedio empírico se desvía de la media? En términos de nuestra moneda: ¿qué sucede si después de realizar una cantidad “suficientemente grande’’ de lanzamientos no tenemos la misma proporción de águilas y soles? LLN nos dice que precisamente esto no ocurre muy frecuentemente o que es poco probable que esto suceda, formalmente se tiene que si $ a>\mathbb{E}(X_1) $ entonces

$$ \lim\limits_{n\rightarrow\infty}\mathbb{P}(S_n\geq na)=0. $$

La sucesión de eventos $ \{S_n\geq na\}_{n\in\mathbb{N}} $ es una sucesión de eventos raros y su probabilidad de ocurrencia decae a cero. La cuestión es ¿de qué manera lo hace? Nos interesa, por ejemplo, qué tan rápida es la velocidad de decaimiento –¿qué tan raros son los eventos?–.

El primero en plantearse, de manera directa y formal, esta cuestión fue Cramér4 y que, de hecho, él mismo contesta en el teorema que presentamos a continuación y el cual lleva su nombre5. Antes de enunciar el teorema damos la siguiente definición.

Definición 1. Sean $ \{X_i\}_{i\in\mathbb{N}} $ variables aleatorias reales independientes e idénticamentes distribuidas tales que su función generadora de momentos es finita en todo $ \mathbb{R} $, es decir, $ \varphi(t)=\mathbb{E}(e^{tX_1})<\infty $ para toda $ t\in\mathbb{R} $. Sea $ z\in\mathbb{R} $ entonces definimos la función $ \mathcal{I}:\mathbb{R}\rightarrow\mathbb{R} $ de la siguiente manera:
$$ \mathcal{I}(z)=\sup_{t\in\mathbb{R}}[zt-\log\varphi(t)]. $$

A esta función se le conoce como la transformada de Fenchel-Legendre de $ \varphi $.

Teorema 1 (Cramér). Sean $ \{X_i\}_{i\in\mathbb{N}} $ variables aleatorias reales independientes e idénticamentes distribuidas tales que $ \varphi(t) $ es finita para toda $ t\in\mathbb{R} $. Sea $ S_n = \sum_{i=1}^{n} X_i $. Entonces, para cada $ a>\mathbb{E}(X_1)=\mu $ se tiene que
$$
\tag{1}
\lim\limits_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{P}(S_n\geq an)=-\mathcal{I}(a),
$$
con $ \mathcal{I} $ la transformada de Fenchel-Legendre recién definida.

Demostración. Para demostrar el teorema primero observamos que podemos suponer sin pérdida de generalidad que $ a=0 $ y $ \mathbb{E}(X_1)=\mu<a $ $($de otra forma podemos trabajar con $ X_1-\mu )$. Con esta suposición debemos trabajar con $ \mathcal{I}(0) $.

Consideremos el caso en el que $ X_1 $ es no degenerada ya que si, por el contrario, $ X_1\equiv\mu $, entonces $ \mathbb{P}(S_n\geq an)=0 $ para toda $ n $ y por lo tanto
$$ \lim_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{P}(S_n\geq an)=-\infty. $$

Por otro lado
$$ -\mathcal{I}(a)=-\sup_{t\in\mathbb{R}}[at-\log\varphi(t)]=-\sup_{t\in\mathbb{R}}[at-\log e^{t\mu}]=-\sup_{t\in\mathbb{R}}[t(a-\mu)]=-\infty. $$

Y así obtenemos que [1] es válido trivialmente para variables aleatorias degeneradas.

Para facilitar el trabajo haremos uso de la siguiente notación:
$$ \rho=\inf_{t\in\mathbb{R}}\varphi(t). $$

Notemos que $ \mathcal{I}(0)=\sup_{t\in\mathbb{R}}[-\log\varphi(t)]=-\log[\inf_{t\in\mathbb{R}}\varphi(t)]=-\log\rho $, por lo cual, basta probar que
$$
\tag{2}
\lim\limits_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{P}(S_n\geq0)=\log\rho
$$

Sea $ F(x) $ la función de distribución de $ X_1 $. Como $ \varphi(t) $ es finito en todo $ \mathbb{R} $ tenemos que su $ n $-ésima derivada es $ \varphi^{(n)}(t)=\mathbb{E}(X^n e^{Xt}) $ para toda $ n\in\mathbb{N} $. En particular
$$ \varphi'(t)=\int_{\mathbb{R}}xe^{tx}dF(x) $$ y
$$ \varphi»(t)=\int_{\mathbb{R}}x^2e^{tx}dF(x). $$

De lo anterior se sigue que $ \varphi»(t)>0 $ para toda $ t\in\mathbb{R} $. Como la segunda derivada de $ \varphi $ es positiva entonces $ \varphi $ es estrictamente convexa, además $ \varphi'(0)=\mathbb{E}(X_1) $. Consideraremos tres casos dependiendo de en donde se encuentre acumulada la masa de probabilidad de $ X_1 $.
Caso 1: $ \mathbb{P}(X_1<0)=1 $.

En este caso tenemos que $ \varphi $ es decreciente. Esto se sigue de
$$ \varphi'(t)=\int_{\mathbb{R}}xe^{tx}dF(x)=\int_{-\infty}^{0}xe^{tx}dF(x)+0=\int_{-\infty}^{0}xe^{tx}dF(x)<0. $$

Entonces $ \varphi $ es decreciente y observemos que $ e^{tx}\leq 1 $ para toda $ x\in (0,-\infty) $ y para toda $ t>0 $. Luego, por el teorema de convergencia dominada de Lebesgue (CDL) –la función constante 1 domina–, se tiene que
$$ 0=\int_{-\infty}^{0}\lim_{t\rightarrow\infty}e^{tx}dF(x)=\lim_{t\rightarrow\infty} \varphi(t)=\inf_{t\in\mathbb{R}}\varphi(t)=\rho. $$

Como $ \mathbb{P}(X_1<0)=1 $ entonces $ \mathbb{P}(S_n\geq0)=0 $ para cada $ n\in\mathbb{N} $. Por lo tanto $ \log\mathbb{P}(S_n\geq 0)=-\infty=\log\rho $, esto es, se obtiene ([2]).
Caso 2: $ \mathbb{P}(X_1\leq0)=1 $ y $ \mathbb{P}(X_1=0)>0 $.

Observemos que no puede suceder que $ \mathbb{P}(X_1=0)=1 $ puesto que el caso en que $ X_1 $ es una constante ya fue probado. Análogamente al caso 1 se tiene que la función
$$ \varphi(t)=\int_{-\infty}^{0}e^{tx}dF(x) $$

es decreciente pues de nuevo se observa que
$$ \varphi'(t)=\int_{\mathbb{R}}xe^{tx}dF(x)=\int_{-\infty}^{0}xe^{tx}dF(x)+0=\int_{-\infty}^{0}xe^{tx}dF(x)<0 $$

y la masa de probabilidad no puede estar concentrada solo en el cero por hipótesis. De nuevo, por el teorema CDL $($con la constante 1 como la función que domina$)$ y como en este caso $ \mathbb{P}(X_1=0)>0 $, se tiene
$$ \lim_{t\rightarrow\infty}\varphi(t)=\int_{-\infty}^{0}\lim_{t\rightarrow\infty}e^{tx}dF(x)=0+\lim_{t\rightarrow\infty}e^{t\cdot0}\mathbb{P}(X_1=0)=\mathbb{P}(X_1=0)>0. $$

Así, como $ \varphi $ es decreciente y convexa, se sigue que
$$ \rho=\inf_{t\in\mathbb{R}}\varphi(t)=\lim_{t\rightarrow\infty}\varphi(t)=\mathbb{P}(X_1=0)>0. $$

Observemos que
$$ \mathbb{P}(S_n\geq0)=\mathbb{P}(S_n>0)+\mathbb{P}(S_n=0)=0+\mathbb{P}(X_1=0,…,X_n=0) $$
$$ =\prod_{i=1}^{n}\mathbb{P}(X_i=0)=\rho^n. $$

Por lo tanto
$$ \lim_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{P}(S_n\geq 0)=\lim_{n\rightarrow\infty}\frac{1}{n}\log\rho^n=\log\rho. $$

Así hemos obtenido ([ec:2]).
Caso 3: $ \mathbb{P}(X_1<0)>0 $ y $ \mathbb{P}(X_1>0)>0 $.

En este caso tenemos
$$ \lim_{t\rightarrow\infty}\varphi(t)=\lim_{t\rightarrow\infty}\Biggr[\int_{-\infty}^{0}e^{tx}dF(x)+\int_{0}^{\infty}e^{tx}dF(x)\Biggl] $$
$$ =\int_{-\infty}^{0}\lim_{t\rightarrow\infty}e^{tx}dF(x)+\lim_{t\rightarrow\infty}\int_{0}^{\infty}e^{tx}dF(x)=0+\lim_{t\rightarrow\infty}\int_{0}^{\infty}e^{tx}dF(x) $$
$$ \geq \liminf_{n\rightarrow\infty}\int_{0}^{\infty}e^{tx}dF(x)\geq\int_{0}^{\infty}\liminf_{n\rightarrow\infty}e^{tx}dF(x)=\infty. $$

En donde en la segunda igualdad hacemos uso del teorema CDL y en la última desigualdad hacemos uso del lema de Fatou. Por lo tanto
$$ \lim_{t\rightarrow\infty}\varphi(t)=\infty. $$

De manera similar se obtiene que
$$ \lim_{t\rightarrow-\infty} \varphi(t)=\infty. $$

Como $ \varphi $ es estrictamente convexa entonces tiene un único punto mínimo, i.e., existe un único $ \tau\in\mathbb{R} $ tal que $ \varphi(\tau)=\rho $ y $ \varphi'(\tau)=0 $.

Ahora recordemos la desigualdad de Markov:
$$
\tag{3}
\mathbb{P}(X\geq \epsilon)\leq\frac{\mathbb{E}(X)}{\epsilon},
$$
con $ X $ una variable aleatoria real no negativa y $ \epsilon>0 $. Aplicando ([3]) a la variable aleatoria real y no negativa $ e^{\tau S_n} $ obtenemos que
$$ \mathbb{P}(S_n\geq 0)=\mathbb{P}(e^{\tau S_n}\geq1)\leq\mathbb{E}(e^{\tau S_n})= \prod_{i=1}^{n}\mathbb{E}(e^{\tau X_i})=[{\varphi(\tau)}]^n = \rho^n. $$

Aplicando logaritmo, multiplicando por $ \frac{1}{n} $ y tomando límite superior obtenemos
$$
\tag{4}
\limsup_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{P}(S_n\geq 0)\leq \log\rho.
$$

Para obtener la cota inferior haremos uso de herramientas más refinadas. A saber, la transformada de Cramér y tres lemas adicionales.
Sean $ \{{\widehat{X}_i}\}_{i\in\mathbb{N}} $ variables aleatorias independientes e idénticamente distribuidas con distribución común dada por
$$
\tag{5}
\widehat{F}(x)=\frac{1}{\rho}\int_{-\infty}^{x}e^{\tau y}dF(y).
$$

A ([5]) se le conoce como la transformada de Cramér de $ F(x) $.

Observación 1.
$$ \int_{\mathbb{R}}e^{\tau y}dF(y)=\mathbb{E}(e^{\tau X_1})=\varphi(\tau)=\rho. $$

Lema 1. $ \mathbb{E}(\widehat{X}_1)=0 $ y $ \mathop{\mathrm{Var}}(\widehat{X}_1)=\widehat{\sigma}^2\in(0,\infty) $.

Demostración. Sea $ \widehat{\varphi}(t)=\mathbb{E}(e^{t\widehat{X}_1}) $. Entonces
$$ \widehat{\varphi}(t)=\int_{\mathbb{R}}e^{tx}d\widehat{F}(x)=\int_{\mathbb{R}}e^{tx}\frac{1}{\rho}e^{\tau x}f(x)\enspace dx=\frac{1}{\rho}\quad\varphi(t+\tau)<\infty \quad \forall t\in\mathbb{R}. $$

Así, existe la derivada de cualquier orden de $ \widehat{\varphi} $ y $ \mathbb{E}(\widehat{X}_1)=\widehat{\varphi}'(0)=\frac{1}{\rho}\varphi'(\tau)=0 $. Y $ \mathop{\mathrm{Var}}(\widehat{X}_1)=\widehat{\varphi}»(0)=\frac{1}{\rho}\varphi»(\tau)\in(0,\infty) $ ya que como $ \tau $ es mínimo se tiene que $ \varphi»(\tau)>0 $

$\blacksquare$

Lema 2. Sea $ \widehat{S}_n=\sum_{i=1}^{n}\widehat{X}_i $ entonces $ \mathbb{P}(S_n\geq0)=\rho^n\mathbb{E}\Bigl(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq0\}}\Bigr) $.

Demostración.
$$ \mathbb{P}(S_n\geq0)=\int_{\{(x_1,…,x_n)|x_1+…+x_n\geq0\}}dF(x_1)…dF(x_n)= $$
$$ \int_{\{(x_1,…,x_n)|x_1+…+x_n\geq0\}}(\rho e^{-\tau x_1}d\widehat{F}(x_1))…(\rho e^{-\tau x_n}d\widehat{F}(x_n))= $$
$$ \rho^n\int_{\{(x_1,…,x_n)|x_1+…+x_n\geq0\}}e^{-\tau\sum_{i=1}^{n}x_i}d\widehat{F}(x_1)…d\widehat{F}(x_n)=\rho^n\mathbb{E}\Bigl(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq0\}}\Bigr).$$
$\blacksquare$

Lema 3. $ \liminf_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{E}\Bigl(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq0\}}\Bigr)\geq0 $.

Demostración Sea $ C>0 $ tal que
$$ \frac{1}{4}<\frac{1}{\sqrt{2\pi}}\int_{0}^{C}e^{\frac{x^2}{2}}\enspace dx<1. $$

Ahora, por la desigualdad de Markov cf. ([3]), tenemos que
$$
\tag{1.6}
e^{-\tau C\widehat{\sigma}\sqrt{n}}\mathbb{P}\Bigr(e^{-\tau\widehat{S}_n}\,1_{\{\widehat{S}_n\geq 0\}} \geq e^{-\tau C\widehat{\sigma}\sqrt{n}}\Bigl)\leq\mathbb{E}\Bigr(e^{-\tau \widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigl).
$$

Por otro lado, notemos que
$$ \mathbb{P}\Bigr(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}} \geq e^{-\tau C\widehat{\sigma}\sqrt{n}}\Bigl)=\mathbb{P}\Bigr(-\tau\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}} \geq -\tau C\widehat{\sigma}\sqrt{n}\Bigl). $$

Lo anterior ya que si $ 1_{\{\widehat{S}_n\geq 0\}}=1 $ casi seguramente entonces
$$ \Bigr\{e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}} \geq e^{-\tau C\widehat{\sigma}\sqrt{n}}\Bigl\}=\Bigr\{-\tau\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}}\geq -\tau C \widehat{\sigma}\sqrt{n}\Bigl\}, $$

simplemente aplicando logaritmo. Ahora, si $ 1_{\{\widehat{S}_n\geq 0\}}=0 $ casi seguramente entonces los eventos
$$ \Bigr\{e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}} \geq e^{-\tau C\widehat{\sigma}\sqrt{n}}\Bigl\} \quad \text{y} \quad \Bigr\{-\tau\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}}\geq -\tau C \widehat{\sigma}\sqrt{n}\Bigl\} $$

tienen la misma probabilidad de ocurrencia pues los eventos
$$ \bigl\{0\geq e^{-\tau C\widehat{\sigma}\sqrt{n}}\bigr\} \quad \text{y} \quad \{-\infty\geq -\tau C \widehat{\sigma}\sqrt{n} \} $$

tienen probabilidad igual a cero para toda n.
Ahora, ocurre que
$$ \mathbb{P}\Bigr(-\tau\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}} \geq -\tau C\widehat{\sigma}\sqrt{n}\Bigl)=\mathbb{P}\Bigr(\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}}\leq C\widehat{\sigma}\sqrt{n}\Bigl) $$
$$ =\mathbb{P}\Biggr(\frac{\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}}}{\widehat{\sigma}\sqrt{n}}\leq C\Biggl)=\mathbb{P}\Biggl(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Biggr) $$

si $ \tau\geq0 $ y
$$ \mathbb{P}\Bigr(-\tau\widehat{S}_n \,1_{\{\widehat{S}_n\geq 0\}} \geq -\tau C\widehat{\sigma}\sqrt{n}\Bigl)=1-\mathbb{P}\Biggl(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Biggr) $$

si $ \tau<0 $. Entonces de ([1.6]) se sigue que
$$ e^{\tau C\widehat{\sigma}\sqrt{n}}\mathbb{P}\Biggr(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Biggl)\leq\mathbb{E}\Bigr(e^{-\tau \widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigl) $$

o bien
$$ e^{\tau C\widehat{\sigma}\sqrt{n}}\Biggl[1-\mathbb{P}\Biggr(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Biggl)\Biggr]\leq\mathbb{E}\Bigr(e^{-\tau \widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigl). $$

Observemos que el Lema Lema 1 nos permite aplicar el Teorema del Límite Central a la variable aleatoria $ \frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}} $. Así, para $ n $ suficientemente grande se tiene que
$$ \frac{1}{4}<\frac{1}{\sqrt{2\pi}}\int_{0}^{C}e^{\frac{x^2}{2}}\enspace dx=\mathbb{P}\Biggl(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Biggr)<1. $$

Luego
$$ e^{\tau C\widehat{\sigma}\sqrt{n}}\frac{1}{4}\leq\mathbb{E}\Bigr(e^{-\tau \widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigl), $$

o bien, como $ 0<1-\mathbb{P}\Bigl(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Bigr) $ entonces existe $ \epsilon>0 $ tal que
$ 1-\mathbb{P}\Bigl(\frac{\widehat{S}_n}{\widehat{\sigma}\sqrt{n}}\in[0,C]\Bigr)=\epsilon $, luego
$$ e^{\tau C\widehat{\sigma}\sqrt{n}}\epsilon\leq\mathbb{E}\Bigr(e^{-\tau \widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigl). $$

Así, se obtiene que
$$ \frac{1}{\sqrt{n}}\tau C\widehat{\sigma}+\frac{1}{n}\log\Bigr(\frac{1}{4}\Bigl)=\frac{1}{n}\tau C\widehat{\sigma}\sqrt{n}+\frac{1}{n}\log\Bigr(\frac{1}{4}\Bigl)=\frac{1}{n}\log \Bigr[e^{\tau C\widehat{\sigma}\sqrt{n}}\frac{1}{4}\Bigl] $$
$$ \leq\frac{1}{n}\log\mathbb{E}\Bigr(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq0\}}\Bigl), $$

o bien
$$ \frac{1}{\sqrt{n}}\tau C\widehat{\sigma}+\frac{1}{n}\log\epsilon\leq\frac{1}{n}\log\mathbb{E}\Bigr(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq0\}}\Bigl). $$

Así, al tomar el límite inferior tenemos que
$$ 0=\liminf_{n\rightarrow\infty}\Biggr[\frac{1}{\sqrt{n}}\tau C\widehat{\sigma}+\frac{1}{n}\log\Bigr(\frac{1}{4}\Bigl)\Biggl]\leq\liminf_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{E}\Bigr(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq0\}}\Bigl). $$

que es lo que se quería demostrar.

$\blacksquare$

Observación 2. Podemos notar que la elección de $ \frac{1}{4} $ como cota es arbitraria, de hecho podemos utilizar cualquier número mayor que cero.

Para concluir la demostración del teorema basta observar que del Lema Lema 2 se sigue que
$$ \frac{1}{n}\log\bigl(\mathbb{P}(S_n\geq0)\bigr)=\frac{1}{n}\log\Biggl[\rho^n\mathbb{E}\Bigl(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigr)\Biggr] $$
$$ =\log\rho+\frac{1}{n}\log\mathbb{E}\Bigl(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigr). $$

Al tomar límite inferior y por el Lema Lema 3 obtenemos
$$ \liminf_{n\rightarrow\infty}\Biggl[\frac{1}{n}\log\bigl(\mathbb{P}(S_n\geq0)\bigr)-\log\rho\Biggr]=\liminf_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{E}\Bigl(e^{-\tau\widehat{S}_n} \,1_{\{\widehat{S}_n\geq 0\}}\Bigr)\geq 0. $$

Es decir,
$$
\tag{1.7}
\liminf_{n\rightarrow\infty}\frac{1}{n}\log\mathbb{P}(S_n\geq0)\geq\log\rho.
$$

Por lo tanto, de ([4]) y ([1.7]) se sigue ([2]).

$\blacksquare$

Se puede analizar y decir mucho acerca de este teorema, cf. 1Hollander, F. den. 2008. Large Deviations. Fields Institute Monographs. American Mathematical Society., por cuestiones de espacio sólo comentaremos que el teorema también es válido para la sucesión de eventos raros definida por $ \{S_n\leq na\}_{n\in\mathbb{N}} $ con $ \mathbb{E}(X_1)>a $.

Ahora, por un lado notemos que $ \mathcal{I}(z)\geq 0 $ y $ \mathcal{I}(\mu)=0 $. En efecto, $ \mathcal{I}(z)=\sup_{t\in\mathbb{R}}[zt-\log\varphi(t)]\geq 0\cdot t-\log\varphi(0)=0 $ para toda $ z\in\mathbb{R} $. Ahora, por la desigualdad de Jensen,
$$ \log\varphi(t)=\log\mathbb{E}(e^{tX_1})\geq\mathbb{E}(\log e^{tX_1})=\mathbb{E}(tX_1)=t\mu, $$

es decir, $ -\log\varphi(t)\leq t\mu $; luego
$$ 0\leq\mathcal{I}(\mu)=\sup_{t\in\mathbb{R}}t\mu-\log\varphi(t)\leq\sup_{t\in\mathbb{R}}t\mu-t\mu=0. $$

Por otro lado se tiene que $ \mathcal{I} $ es semi continua inferiormente y convexa. En efecto, por una parte $ g(z)=zt-\log\varphi(t) $ es continua, como el supremo de funciones continuas es semi continua inferiormente entonces se sigue la primera afirmación. Por otra parte, como $ g $ es una función afín y el supremo de funciones afínes es convexa entonces $ I(z) $ es convexa.

Por lo tanto, como $ \mathcal{I} $ es convexa, mayor o igual que cero y $ \mathcal{I}(\mu)=0 $; entonces si $ z\geq a>\mu $ se tiene que $ \mathcal{I}(z)\geq \mathcal{I}(a) $. Como es semi continua inferiormente entonces

$$ \lim_{n\rightarrow \infty}\frac{1}{n}\log\mathbb{P}\Biggl(\frac{1}{n}S_n\geq a\Biggr)=-\mathcal{I}(a)=\sup_{z\in[a,\infty)}-\mathcal{I}(z)=-\inf_{z\in[a,\infty)}-\mathcal{I}(z). $$

Es decir, tenemos que la velocidad de decaimiento está dada por el ínfimo de la función tasa $ \mathcal{I} $ en el conjunto $ [a,\infty) $. Más aún, éste se alcanza en $ z=a $. Lo anterior se puede interpretar de siguiente manera: ¡cualquier desviación grande $($evento raro$)$ sucede de la manera menos rara de entre todas las maneras raras posibles!

Ahora que hemos contestado la pregunta que da título a este artículo podemos preguntarnos qué más se puede hacer dentro de esta teoría, como el título $($del presente artículo$)$ lo indica esta es una ligera introducción por lo cual sólo quisiéramos comentar un par de cosas antes de concluir. En primer lugar, este teorema se extiende a espacios de medidas, es decir, para la medida empírica. Más aún, se tiene que la función de tasa para ese caso es en realidad la entropía relativa entre dos medidas de probabilidad y ya que esta función tiene muchas propiedades interesantes esto da lugar al desarrollo de una teoría tanto analítica como geométrica muy rica –en términos matemáticos– en la cual interceden varias áreas de la matemática, notablemente, el análisis funcional, la teoría de la medida, la topología, el análisis convexo entre otras. En segundo lugar, hay un sinnúmero de aplicaciones de la teoría de grandes desviaciones tanto en matemáticas aplicadas $($finanzas, mecánica estadística, biología, química, etc.$)$ como en las matemáticas puras. Si el lector se ve atraído por todos estos resultados recomendamos consultar 2Hollander, F. den. 2008. Large Deviations. Fields Institute Monographs. American Mathematical Society. y 3Iñigo, R. 2020. “Grandes Desviaciones En Espacios de Medidas Y Sus Representaciones.” Universidad Nacional Autónoma de México. http://132.248.9.195/ptd2020/febrero/0800873/Index.html., además de la bibliografía ahí citada.

En fin, como hemos visto los eventos raros no son tan raros después de todo; así que la próxima vez que nos sorprendamos porque algo inesperado sucedió recordemos que no fue tan anormal a lo hora de suceder; claro, eso no le debe restar “maravillosidad’’6 a la vida pues lo sorprendente no es el modo en que suceden las cosas sino que, al final de todo, suceden.


  1. Es curioso que el nacimiento de una teoría extremadamente poderosa haya sido una actividad que, aunque divertida, no deja de ser banal.↩︎
  2. Los comienzos de la teoría de grandes desviaciones pueden trazarse a partir de Laplace, cf. 5“Laplace Principle $($Large Deviations Theory$)$.” 2020. April 7, 2020. https://en.wikipedia.org/wiki/Laplace_principle_$($large_deviations_theory$)$. ↩︎
  3. Durante el desarrollo del presente artículo haremos uso de algunos resultados importantes y de conocimiento general. A saber, el teorema de convergencia dominada de Lebesgue, el lema de Fatou, la desigualdad de Markov y la desigualdad de Jensen. Todos estos resultados pueden ser consultados en 6Rudin, W. 1987. Real and Complex Analysis. Higher Mathematics Series. McGraw-Hill Education. y 7Folland, G. B. 2013. Real Analysis: Modern Techniques and Their Applications. Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts. Wiley. ↩︎
  4. Harald Cramér (1893-1985). Matemático sueco que hizo importantes contribuciones a la estadística y a la teoría analítica de números.↩︎
  5. Existen versiones más generales de este teorema, enunciamos esta versión con el objetivo de introducir al lector de manera amigable a esta teoría.↩︎
  6. La palabra “maravillosidad’’ no existe como sustantivo; sin embargo, me parece sujerente sustantivizar el adjetivo maravilloso al referirme a la vida.↩︎

Bibliografia   [ + ]

1, 2. Hollander, F. den. 2008. Large Deviations. Fields Institute Monographs. American Mathematical Society.
3. Iñigo, R. 2020. “Grandes Desviaciones En Espacios de Medidas Y Sus Representaciones.” Universidad Nacional Autónoma de México. http://132.248.9.195/ptd2020/febrero/0800873/Index.html.
4. “Harald Cramér.” 2020. April 7, 2020. https://en.wikipedia.org/wiki/Harald_Cramér.
5. “Laplace Principle $($Large Deviations Theory$)$.” 2020. April 7, 2020. https://en.wikipedia.org/wiki/Laplace_principle_$($large_deviations_theory$)$.
6. Rudin, W. 1987. Real and Complex Analysis. Higher Mathematics Series. McGraw-Hill Education.
7. Folland, G. B. 2013. Real Analysis: Modern Techniques and Their Applications. Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts. Wiley.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Demuestra que no eres un robot:
*