Dios nos ayude a entender a Karl Friston 1: inferencia activa
Sergio M. Iglesias <yo@sergio.sh>, 2025-10-15
La “inferencia activa” es una teoría/principio semireciente que pretende explicar cómo el cerebro percibe el mundo, aprende de él, y decide actuar para cambiarlo. Forma parte de un conjunto de teorías llamado “teorías del cerebro bayesiano”, pero introduce originalmente los conceptos de sorpresa y energía libre variacional, cuya minimización actúa como eje coordinador de todos los procesos mentales. Por desgracia, entender a Karl Friston, su principal autor, es extremadamente complicado, e intentarlo se ha vuelto un meme en círculos de neurociencia. Es por esto que dedicaré este post a hacer una introducción lo más sencilla posible a esta teoría, sin simplificar conceptos ni perder rigurosidad, preparando al lector para leer los citados trabajos originales.
Cerebro bayesiano e inferencia activa
Las teorías del cerebro bayesiano proponen que el cerebro es una máquina biológica dedicada a realizar la operación de Bayes, la misma que se utiliza en estadística para obtener las causas más probables de un resultado a posteriori. Los resultados a explicar por el cerebro son las sensaciones, y encontrar sus causas ayuda al cerebro a predecir situaciones futuras.
La teoría de la inferencia activa introduce el concepto de sorpresa, o cómo de inesperada es una sensación. Por ejemplo, comer de nuevo una comida que uno despreciaba y descubrir que ahora es poco menos que un manjar sería una sorpresa (me siento bien porque esta comida está… ¿Mala?), y amerita una revisión del modelo interno del mundo, para el que esa comida no debería saber bien. Con el modelo actualizado para incluir la nueva información obtenida, futuros banquetes con ese plato serán disfrutados, sí, pero no supondrán una sorpresa, y la operación bayesiana podrá explicar perfectamente sus sensaciones (me siento bien porque esta comida está… rica).
La sorpresa ha de ser minimizada a cualquier coste para que el cerebro pueda explicar todas sus sensaciones, despejando el azar del mundo y haciéndolo determinista en la medida de lo posible, a lo que normalmente llamamos aprender, incluir nueva información en el modelo bayesiano. Sin embargo, como veremos en la siguiente sección, la sorpresa no es un valor que se pueda calcular directamente, por lo que la teoría de la inferencia activa propone la energía libre variacional como sustituto de esta. Reducir la energía libre variacional reduce también la sorpresa, por lo que el cerebro, buscando minimizar la segunda (imposible de forma directa), minimiza la primera en su lugar.
Pero hay otra forma de reducir la energía libre variacional (¡y la sorpresa, en consecuencia!) que no involucra aprender: actuar. Si el mundo no coincide con lo que mi modelo espera, cambio el mundo para que lo haga. Por ejemplo, si uno toca un metal al rojo vivo sin querer, se da una sorpresa porque el cerebro (en este caso sistema nervioso) no espera el dolor. Dada la situación, la operación bayesiana asocia rápidamente el haber apoyado la mano en el metal con el dolor que se está sintiendo. Aquí el cerebro podría decidir ajustar poco a poco su modelo para incluir el dolor y normalizar la situación, reduciendo paulatinamente la sorpresa asociada. Sin embargo, lo más rápido y eficaz es actuar, apartar la mano del metal. Al cambiar el mundo, aunque sea con gestos tan pequeños como apartar la mano, las sensaciones que recibe el cerebro cambian, y por lo tanto la sorpresa disminuye.
Aparece entonces una pregunta, uno de los mayores misterios del funcionamiento del cerebro: ¿Cómo decide el cerebro cuándo debe aprender y cuándo debe actuar? La inferencia activa propone una respuesta sencilla: hace aquello, en cada momento, que más reduzca la energía libre variacional y, por ende, la sorpresa.
Sorpresa y energía libre variacional
La sorpresa es el desajuste entre lo que el modelo del mundo \(m\) esperaba percibir y la sensación real percibida \(s\):
\[S = -\ln p(\tilde s | m)\]Podemos entenderla como “la probabilidad de que la sensación \(\tilde s\) se haya dado según el modelo del mundo \(m\) sobre la distribución probabilística \(p\)”.
Notación: denotaremos como \(\tilde v\) a un vector columna de infinitos elementos que contenga las sucesivas derivadas de \(v\):
\[\tilde v = \begin{pmatrix} v \\ v' \\ v'' \\ \dots \end{pmatrix}\]Por lo que \(\tilde v\) codificará las ecuaciones del movimiento de \(v\), que en el caso de las sensaciones \(s\) implicará tanto la actual \(s\) como el cambio continuo de la misma a lo largo del tiempo \(s^{(i\geq 1)}\).
¿Por qué el logaritmo neperiano negativo? Porque así, la sorpresa \(S\) aumenta cuando la probabilidad de la sensación \(\tilde s\) dado el modelo \(m\) (\(p(\tilde s|m)\)) disminuye, y la función obtiene las propiedades lineales del logaritmo (es más fácil operar con \(\ln a = \ln b + \ln c\) que con \(a = bc\)).
Desgraciadamente, tal y como está formulada, la sorpresa es un valor incalculable, porque estaríamos asumiendo que el modelo del mundo \(m\) incluye dentro de sí las causas ocultas \(\vartheta\) de \(\tilde s\), desconocidas por definición. Lo que Friston propone es utilizar un proxy de la sorpresa, una cota superior de su promedio llamada energía libre variacional, cuya reducción implique también una reducción del promedio de la sorpresa:
\[F = -\langle \ln p(\tilde s,\vartheta | m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q\]Desglosemos esta definición para entenderla mejor, comenzando por el término \(-\langle \ln p(\tilde s,\vartheta | m) \rangle_q\), que mide el ajuste o desajuste del modelo predictivo frente a la sensación \(\tilde s\). Para ello, se obtiene primero la probabilidad de que \(\tilde s\) se dé a causa de \(\vartheta\) según el modelo del mundo \(m\) (\(\ln p(\tilde s, \vartheta | m)\)). Es decir, para todas las causas posibles \(\vartheta\), se calcula cómo de bien explica cada una la sensación \(\tilde s\) según \(m\). Después, se realiza el promedio sobre todas las causas, \(\langle \dots \rangle_q\), ponderando en cada caso cómo de probable es \(\vartheta\) como explicación de \(\tilde s\), siguiendo la distribución de creencias \(q\) (\(\mu\) son las creencias en sí). De esta forma, este primer término no obtiene solo la capacidad de \(m\) para explicar la sensación \(\tilde s\) con la causa \(\vartheta\), sino que también considera la confianza del modelo predictivo en la relación de causalidad \(\vartheta \rightarrow \tilde s\).
Notación: el operador \(\langle x \rangle_q\) representa la media ponderada de \(x\) sobre la distribución \(q\):
\[\langle x \rangle_q = \int xq(x|\mu) dx\]En el caso discreto, tendríamos algo como:
\[\sum^{n}_{i=1} x_i q(x_i|\mu)\]
Pasemos al segundo término, \(\langle \ln q(\vartheta|\mu) \rangle_q\), la entropía. El objetivo de introducirlo es penalizar a los modelos muy seguros de las causas ocultas \(\vartheta\) de sus sensaciones \(\tilde s\), porque conocerlas con precisión es siempre imposible (son ocultas). La penalización es aplicada en forma de descuento a los modelos más difusos (de ahí el signo positivo). Para ello se toma el logaritmo de las causas sobre la distribución de creencias \(\ln q(\vartheta | \mu)\) y se obtiene su media ponderada (igual que en el término anterior). Si un modelo está muy seguro de las causas ocultas, \(q(\vartheta|\mu)\) tendrá picos \(\approx 1\) en las más probables, y valles \(\approx 0\) en las demás. En esa situación, \(\ln q(\vartheta|\mu)\) tendrá algunos valores negativos \(\approx 0\) (lo que antes eran picos, las pocas causas ocultas que cree posibles) y muchos \(\ll 0\) (lo que eran valles). Al aplicar la media ponderada, los picos \(\approx 1\) se multiplican por los valores negativos \(\approx 0\) del logaritmo, y los valles \(\approx 0\) por los valores \(\ll 0\) del logaritmo, casi cancelándose. El resultado final es un valor negativo bastante cercano a \(0\), por lo que \(F\) casi no se ve alterado. En el caso contrario, un modelo menos seguro de sus explicaciones, la media ponderada resultaría en un número negativo más alejado de \(0\), premiándolo con un descuento en energía libre. Obsérvese la tabla 1 para más claridad.
| $$q(\vartheta|\mu)$$ | $$\ln q(\vartheta|\mu)$$ | $$q(\vartheta|\mu) \odot \ln q(\vartheta|\mu)$$ | $$\sum q(\vartheta|\mu) \odot \ln q(\vartheta|\mu) = \langle \ln q(\vartheta | \mu) \rangle_q$$ |
|---|---|---|---|
| $$\begin{pmatrix} 0.990 \\ 0.009 \\ 0.001 \end{pmatrix}$$ | $$\begin{pmatrix} -0.01 \\ -4.71 \\ -6.91 \end{pmatrix}$$ | $$\begin{pmatrix} -0.01 \\ -0.04 \\ -0.01 \end{pmatrix}$$ | $$-0.02$$ |
| $$\begin{pmatrix} 0.90 \\ 0.05 \\ 0.05 \end{pmatrix}$$ | $$\begin{pmatrix} -0.11 \\ -3.00 \\ -3.00 \end{pmatrix}$$ | $$\begin{pmatrix} -0.09 \\ -0.15 \\ -0.15 \end{pmatrix}$$ | $$-0.13$$ |
| $$\begin{pmatrix} 0.60 \\ 0.30 \\ 0.10 \end{pmatrix}$$ | $$\begin{pmatrix} -0.51 \\ -1.20 \\ -2.30 \end{pmatrix}$$ | $$\begin{pmatrix} -0.31 \\ -0.36 \\ -0.23 \end{pmatrix}$$ | $$-0.3$$ |
| $$\begin{pmatrix} 0.34 \\ 0.33 \\ 0.33 \end{pmatrix}$$ | $$\begin{pmatrix} -1.11 \\ -1.11 \\ -1.11 \end{pmatrix}$$ | $$\begin{pmatrix} -0.37 \\ -0.37 \\ -0.37 \end{pmatrix}$$ | $$-0.37$$ |
Como podemos concluir, la energía libre variacional aumentará cuando el modelo no prediga de forma correcta y ajustada a sus creencias las causas de la sensación percibida (primer término) y/o cuando esté demasiado seguro de sus explicaciones (segundo término), asegurando que este explique bien su realidad sin estar sobreconfiado.
Demostración de que la energía libre variacional es cota superior de la sorpresa
Uno podría preguntarse cómo podemos demostrar que \(F \geq S\). Para ello, comenzamos aplicando la regla de Bayes, las propiedades del logaritmo neperiano, y un poco de aritmética:
\[\begin{align*} F &= - \langle \ln p(\tilde s,\vartheta | m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q = \\ &= - \langle \ln p(\vartheta | \tilde s , m) + \ln p( \tilde s | m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q = \\ &= - \langle \ln p(\vartheta | \tilde s , m) \rangle_q - \langle\ln p( \tilde s | m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q = \\ &= - \langle \ln p(\tilde s | m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q - \langle \ln p(\vartheta | \tilde s , m) \rangle_q = \\ &= - \langle \ln p(\tilde s | m) \rangle_q + \langle\ln q(\vartheta | \mu) - \ln p(\vartheta | \tilde s , m) \rangle_q \end{align*}\]Al promedio ponderado de la diferencia entre el logaritmo de dos distribuciones \(\langle \ln q - \ln p \rangle_q\) lo conocemos como la divergencia de Kullback–Leibler \(D_{KL}(q\|p)\), lo que nos sirve para simplificar la fórmula anterior:
\[\begin{align*} F &= - \langle \ln p(\tilde s | m) \rangle_q + \langle\ln q(\vartheta | \mu) - \ln p(\vartheta | \tilde s , m) \rangle_q \\ &= - \langle\ln p( \tilde s | m) \rangle_q + D_{KL}(q(\vartheta | \mu) \| p(\vartheta | \tilde s , m)) \end{align*}\]Por último, podemos eliminar \(\langle \dots \rangle_q\) del primer término, ya que la distribución \(p\) no depende de \(q\), quedándonos finalmente con la siguiente expresión:
\[\begin{align*} F &= - \langle\ln p( \tilde s | m) \rangle_q + D_{KL}(q(\vartheta | \mu) \| p(\vartheta | \tilde s , m)) \\ &= - \ln p( \tilde s | m) + D_{KL}(q(\vartheta | \mu) || p(\vartheta | \tilde s , m)) \\ &= S + D_{KL}(q(\vartheta | \mu) || p(\vartheta | \tilde s , m)) \end{align*}\]Siendo la energía libre variacional la suma de la sorpresa y la divergencia de Kullback-Leibler entre las causas que el modelo cree probables y las reales (siempre positiva), podemos afirmar que:
\[F \geq S\]Demostración de que el aprendizaje y la acción reducen la energía libre variacional
Para demostrar que el aprendizaje reduce la energía libre variacional, partimos de la fórmula de \(F\):
\[F = S + D_{KL}(q(\vartheta | \mu) || p(\vartheta | \tilde s , m))\]Como el aprendizaje aproxima la distribución de creencias \(q(\vartheta | \mu)\) a la real \(p(\vartheta|\tilde s, m)\), la divergencia de Kullback-Leibler se reduce, reduciendo con ello también \(F\). Friston llama a esto \(\arg \max \text{Divergence}\), maximizar la divergencia, aunque con “divergencia” se refiere a la “divergencia frente al estado anterior del modelo”, o “maximización del aprendizaje”, no a la \(D_{KL}\), que ha de ser minimizada.
Por su lado, para demostrar que la acción reduce la sorpresa, manipulamos la fórmula de \(F\) de la siguiente manera:
\[\begin{align*} F &= - \langle \ln p(\tilde s,\vartheta | m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q = \\ &= - \langle \ln p(\tilde s|\vartheta,m) + \ln p(\vartheta|m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q = \\ &= - \langle \ln p(\tilde s|\vartheta,m) \rangle_q - \langle\ln p(\vartheta|m) \rangle_q + \langle\ln q(\vartheta | \mu) \rangle_q = \\ &= - \langle \ln p(\tilde s|\vartheta,m) \rangle_q + \langle\ln q(\vartheta|\mu) \rangle_q - \langle\ln p(\vartheta|m) \rangle_q = \\ &= - \langle \ln p(\tilde s|\vartheta,m) \rangle_q + \langle\ln q(\vartheta|\mu) - \ln p(\vartheta|m) \rangle_q = \\ &= - \langle \ln p(\tilde s|\vartheta,m) \rangle_q + D_{KL}(q(\vartheta|\mu) \| p(\vartheta|m)) \end{align*}\]Como vemos, \(F\) depende de \(\langle \ln p(\tilde s|\vartheta,m) \rangle_q\), que mide cómo de bien predice el modelo las sensaciones (precisión). Actuar sobre el mundo cambia las sensaciones para ajustarlas más al modelo, lo que hace que este término se maximice y, por ser negativo, \(F\) se reduzca. Friston describe este proceso como \(a = \arg \max \text{Accuracy}\), pero \(a = \arg \max \langle \ln p(\tilde s|\vartheta,m) \rangle_q\) quedaría más claro.
Conclusiones
Como hemos visto, el principio de inferencia activa actúa como posible orquestador de la actividad cerebral, proporcionando un marco matemático para entender su función, recordando en varios aspectos al principio de mínima acción en la mecánica clásica.
Las teorías de Friston han causado gran controversia desde su publicación. Aquellos favorables a ellas las presentan como la clave para entender el cerebro, mientras que sus contrarios las califican de infalseables o tautológicamente obvias, faltas de contenido aplicable a la realidad. En todo caso, entenderla correctamente es laborioso, porque Friston reconoce que es incapaz de explicarla con claridad. Espero que este post haya ayudado a suplir esa carencia del autor, sirviendo de introducción avanzada a la teoría. El tiempo nos dirá si Friston estaba o no en lo correcto.
Trabajo futuro
Haré más posts sobre el tema, como el paso de mensajes de las células piramidales en la corteza cerebral o la aplicación de este principio a IA y problemas físicos. También estoy explorando una aplicación novedosa a la economía, que espero tener lista una vez haya escrito en profundidad sobre los detalles de la teoría.
Bibliografía
[1]K. Friston, J. Kilner, y L. Harrison, «A free energy principle for the brain», Journal of Physiology-Paris, vol. 100, n.º 1-3, pp. 70-87, jul. 2006, doi: 10.1016/j.jphysparis.2006.10.001.
[2]K. Friston, «The free-energy principle: a unified brain theory?», Nature Reviews Neuroscience, vol. 11, n.º 2, pp. 127-138, feb. 2010, doi: 10.1038/nrn2787.
[3]T. Parr, G. Pezzulo, y K. J. Friston, Active Inference: The Free Energy Principle in Mind, Brain, and Behavior. Cambridge: The MIT Press, 2022.
[4]Scott Alexander, «God Help Us, Let’s Try To Understand Friston On Free Energy», slatestarcodex. mar. 2018, Accedido: oct. 15, 2025. [En línea]. Disponible en: SlateStarCodex.com.
[5]Cube Flipper, «Ketamine: WD-40 for the Bayesian brain», smoothbrains. ago. 2023, Accedido: oct. 15, 2025. [En línea]. Disponible en: SmoothBrains.net.