Información clásica

Para describir la información cuántica y su funcionamiento, comenzaremos con una visión general de la información clásica. Es natural preguntarse por qué se dedica tanta atención a la información clásica en un curso sobre información cuántica, pero hay buenas razones para ello.

Por un lado, aunque la información cuántica y la clásica difieren de maneras espectaculares, sus descripciones matemáticas son en realidad bastante similares. La información clásica también sirve como punto de referencia familiar al estudiar la información cuántica, así como fuente de analogías que resultan sorprendentemente útiles. Es frecuente que las personas planteen preguntas sobre información cuántica que tienen análogos clásicos naturales, y a menudo esas preguntas tienen respuestas sencillas que pueden aportar claridad e intuición sobre las preguntas originales acerca de la información cuántica. De hecho, no es nada descabellado afirmar que no se puede comprender verdaderamente la información cuántica sin entender la información clásica.

Es posible que algunos lectores ya conozcan el material que se tratará en esta sección, mientras que otros no, pero la exposición está pensada para ambas audiencias. Además de destacar los aspectos de la información clásica más relevantes para una introducción a la información cuántica, esta sección presenta la notación de Dirac, que se utiliza frecuentemente para describir vectores y matrices en información y computación cuántica. Como resulta, la notación de Dirac no es exclusiva de la información cuántica; puede emplearse igualmente en el contexto de la información clásica, así como en muchos otros entornos donde aparecen vectores y matrices.

Estados clásicos y vectores de probabilidad

Supongamos que tenemos un sistema que almacena información. Más concretamente, supondremos que este sistema puede encontrarse en uno de un número finito de estados clásicos en cada instante. Aquí, el término estado clásico debe entenderse en términos intuitivos: una configuración que puede reconocerse y describirse sin ambigüedad.

El ejemplo arquetípico, al que volveremos repetidamente, es el de un bit, que es un sistema cuyos estados clásicos son $0$ y $1.$ Otros ejemplos incluyen un dado estándar de seis caras, cuyos estados clásicos son $1,$ $2,$ $3,$ $4,$ $5$ y $6$ (representados por el número correspondiente de puntos en la cara superior); una nucleobase en una cadena de ADN, cuyos estados clásicos son A, C, G y T; y el interruptor de un ventilador eléctrico, cuyos estados clásicos son (habitualmente) alto, medio, bajo y apagado. En términos matemáticos, la especificación de los estados clásicos de un sistema es, en realidad, el punto de partida: definimos un bit como un sistema que tiene los estados clásicos $0$ y $1,$ y de manera análoga para sistemas con diferentes conjuntos de estados clásicos.

A efectos de esta discusión, llamemos $\mathsf{X}$ al sistema que se está considerando, y usemos el símbolo $\Sigma$ para referirnos al conjunto de estados clásicos de $\mathsf{X}.$ Además de la suposición de que $\Sigma$ es finito, que ya se menciónó, asumimos naturalmente que $\Sigma$ es no vacío, pues no tiene sentido que un sistema físico no tenga ningún estado. Si bien tiene sentido considerar sistemas físicos con infinitos estados clásicos, ignoraremos esta posibilidad, que ciertamente es interesante pero no es relevante para este curso. Por estas razones, y por conveniencia y brevedad, en adelante utilizaremos el término conjunto de estados clásicos para referirnos a cualquier conjunto finito y no vacío.

A continuación, algunos ejemplos:

Si $\mathsf{X}$ es un bit, entonces $\Sigma = \{0,1\}.$ Verbalmente, a este conjunto lo denominamos el alfabeto binario.
Si $\mathsf{X}$ es un dado de seis caras, entonces $\Sigma = \{1,2,3,4,5,6\}.$
Si $\mathsf{X}$ es el interruptor de un ventilador eléctrico, entonces $\Sigma = \{\mathrm{alto}, \mathrm{medio}, \mathrm{bajo}, \mathrm{apagado}\}.$

Al considerar $\mathsf{X}$ como portador de información, los distintos estados clásicos de $\mathsf{X}$ podrían asignarse ciertos significados, dando lugar a diferentes resultados o consecuencias. En tales casos, puede ser suficiente describir $\mathsf{X}$ como estando simplemente en uno de sus posibles estados clásicos. Por ejemplo, si $\mathsf{X}$ es el interruptor de un ventilador, puede que sepamos con certeza que está en alto, lo que nos llevaría a cambiarlo a medio.

Sin embargo, en el procesamiento de información, nuestro conocimiento es a menudo incierto. Una forma de representar nuestro conocimiento del estado clásico de un sistema $\mathsf{X}$ es asociar probabilidades a sus distintos estados clásicos posibles, lo que da como resultado lo que denominaremos un estado probabilístico.

Por ejemplo, supongamos que $\mathsf{X}$ es un bit. Según lo que sabemos o esperamos sobre lo que le ha ocurrido a $\mathsf{X}$ en el pasado, podríamos creer que $\mathsf{X}$ se encuentra en el estado clásico $0$ con probabilidad $3/4$ y en el estado $1$ con probabilidad $1/4.$ Podemos representar estas creencias escribiendo lo siguiente:

\operatorname{Pr}(\mathsf{X}=0) = \frac{3}{4} \quad\text{y}\quad \operatorname{Pr}(\mathsf{X}=1) = \frac{1}{4}.

Una forma más concisa de representar este estado probabilístico es mediante un vector columna.

\begin{pmatrix} \frac{3}{4}\\[2mm] \frac{1}{4} \end{pmatrix}

La probabilidad de que el bit sea $0$ se coloca en la parte superior del vector y la probabilidad de que sea $1$ en la parte inferior, ya que esta es la forma convencional de ordenar el conjunto $\{0,1\}.$

En general, podemos representar un estado probabilístico de un sistema con cualquier conjunto de estados clásicos de la misma manera, como un vector de probabilidades. Las probabilidades pueden ordenarse de cualquier forma que elijamos, aunque habitualmente existe una manera natural o predeterminada de hacerlo. Para ser precisos, podemos representar cualquier estado probabilístico mediante un vector columna que satisfaga dos propiedades:

Todas las entradas del vector son números reales no negativos.
La suma de las entradas es igual a $1.$

Inversamente, cualquier vector columna que satisfaga estas dos propiedades puede tomarse como representación de un estado probabilístico. En adelante, nos referiremos a los vectores de esta forma como vectores de probabilidad.

Junto con la concisión de esta notación, identificar los estados probabilísticos como vectores columna tiene la ventaja de que las operaciones sobre estados probabilísticos se representan mediante la multiplicación de matrices por vectores, como se comentará en breve.

Medición de estados probabilísticos

A continuación, consideremos qué ocurre cuando medimos un sistema que se encuentra en un estado probabilístico. En este contexto, medir un sistema significa simplemente observarlo y reconocer sin ambigüedad el estado clásico en que se encuentra. Intuitivamente, no podemos "ver" un estado probabilístico de un sistema; cuando lo observamos, solo vemos uno de los posibles estados clásicos.

Al medir un sistema, también podemos cambiar nuestro conocimiento sobre él, y por tanto el estado probabilístico que le asociamos puede cambiar. Es decir, si reconocemos que $\mathsf{X}$ se encuentra en el estado clásico $a\in\Sigma,$ el nuevo vector de probabilidad que representa nuestro conocimiento del estado de $\mathsf{X}$ pasa a ser el vector que tiene un $1$ en la entrada correspondiente a $a$ y $0$ en todas las demás. Este vector indica que $\mathsf{X}$ se encuentra en el estado clásico $a$ con certeza —lo cual sabemos por haberlo reconocido en ese momento— y lo denotamos por $\vert a\rangle,$ que se lee como "ket $a$ " por una razón que se explicará en breve. Los vectores de este tipo también se denominan vectores de la base estándar.

Por ejemplo, suponiendo que el sistema que tenemos en mente es un bit, los vectores de la base estándar son:

\vert 0\rangle = \begin{pmatrix}1\\[1mm] 0\end{pmatrix} \quad\text{y}\quad \vert 1\rangle = \begin{pmatrix}0\\[1mm] 1\end{pmatrix}.

Obsérvese que cualquier vector columna bidimensional puede expresarse como combinación lineal de estos dos vectores. Por ejemplo,

\begin{pmatrix} \frac{3}{4}\\[2mm] \frac{1}{4} \end{pmatrix} = \frac{3}{4}\,\vert 0\rangle + \frac{1}{4}\,\vert 1\rangle.

Este hecho se generaliza naturalmente a cualquier conjunto de estados clásicos: cualquier vector columna puede escribirse como combinación lineal de los vectores de la base estándar. Con mucha frecuencia expresamos los vectores precisamente de esta manera.

Volviendo al cambio de un estado probabilístico al ser medido, podemos notar la siguiente conexión con nuestra experiencia cotidiana. Supongamos que lanzamos una moneda justa, pero la tapamos antes de mirarla. Diríamos entonces que su estado probabilístico es

\begin{pmatrix} \frac{1}{2}\\[2mm] \frac{1}{2} \end{pmatrix} = \frac{1}{2}\,\vert\text{heads}\rangle + \frac{1}{2}\,\vert\text{tails}\rangle.

Aquí, el conjunto de estados clásicos de nuestra moneda es $\{\text{heads},\text{tails}\}.$ Elegimos ordenar estos estados poniendo cara primero y cruz segundo.

\vert\text{heads}\rangle = \begin{pmatrix}1\\[1mm] 0\end{pmatrix} \quad\text{y}\quad \vert\text{tails}\rangle = \begin{pmatrix}0\\[1mm] 1\end{pmatrix}

Si descubriéramos la moneda y la miráramos, veríamos uno de los dos estados clásicos: cara o cruz. Suponiendo que el resultado fuera cruz, actualizaríamos naturalmente nuestra descripción del estado probabilístico de la moneda para que pase a ser $|\text{tails}\rangle.$ Por supuesto, si luego tapáramos la moneda y a continuación la descubriéramos y la miráramos de nuevo, el estado clásico seguiría siendo cruz, lo cual es coherente con que el estado probabilístico esté descrito por el vector $|\text{tails}\rangle.$

Esto puede parecer trivial, y en cierto sentido lo es. Sin embargo, aunque los sistemas cuánticos se comportan de manera completamente análoga, sus propiedades de medición se consideran con frecuencia extrañas o inusuales. Al establecer las propiedades análogas de los sistemas clásicos, el funcionamiento de la información cuántica puede parecer menos inusual.

Una última observación sobre la medición de estados probabilísticos es la siguiente: los estados probabilísticos describen conocimiento o creencias, no necesariamente algo real, y medir simplemente cambia nuestro conocimiento, no el sistema en sí. Por ejemplo, el estado de una moneda después de lanzarla, pero antes de mirarla, es cara o cruz — simplemente no sabemos cuál hasta que la miramos. Al ver que el estado clásico es cruz, por ejemplo, actualizaríamos naturalmente el vector que describe nuestro conocimiento a $|\text{tails}\rangle,$ pero para alguien más que no vio la moneda cuando se descubrió, el estado probabilístico permanecería sin cambios. Esto no es motivo de preocupación; diferentes personas pueden tener distintos conocimientos o creencias sobre un sistema particular, y por tanto describir ese sistema mediante diferentes vectores de probabilidad.

Operaciones clásicas

En la última parte de este breve resumen de la información clásica, consideraremos los tipos de operaciones que se pueden realizar sobre un sistema clásico.

Operaciones deterministas

En primer lugar, están las operaciones deterministas, en las que cada estado clásico $a\in\Sigma$ se transforma en $f(a)$ para alguna función $f$ de la forma $f:\Sigma\rightarrow\Sigma.$

Por ejemplo, si $\Sigma = \{0,1\},$ existen cuatro funciones de esta forma, $f_1,$ $f_2,$ $f_3$ y $f_4,$ que pueden representarse mediante tablas de valores de la siguiente manera:

\begin{array}{c|c} a & f_1(a)\\ \hline 0 & 0\\ 1 & 0 \end{array} \qquad \begin{array}{c|c} a & f_2(a)\\ \hline 0 & 0\\ 1 & 1 \end{array} \qquad \begin{array}{c|c} a & f_3(a)\\ \hline 0 & 1\\ 1 & 0 \end{array} \qquad \begin{array}{c|c} a & f_4(a)\\ \hline 0 & 1\\ 1 & 1 \end{array}

La primera y la última de estas funciones son constantes: $f_1(a) = 0$ y $f_4(a) = 1$ para cada $a\in\Sigma.$ Las dos del medio no son constantes, sino equilibradas: cada uno de los dos valores de salida aparece el mismo número de veces (una vez, en este caso) al recorrer todas las entradas posibles. La función $f_2$ es la función identidad: $f_2(a) = a$ para cada $a\in\Sigma.$ Y $f_3$ es la función $f_3(0) = 1$ y $f_3(1) = 0,$ más conocida como la función NOT.

Las acciones de las operaciones deterministas sobre estados probabilísticos pueden representarse mediante la multiplicación matriz-vector. Específicamente, la matriz $M$ que representa una función dada $f:\Sigma\rightarrow\Sigma$ es aquella que satisface

M \vert a \rangle = \vert f(a)\rangle

para todo $a\in\Sigma.$ Dicha matriz siempre existe y queda determinada de forma única por este requisito. Las matrices que representan operaciones deterministas siempre tienen exactamente un $1$ en cada columna, y $0$ en todas las demás entradas.

Por ejemplo, las matrices $M_1,\ldots,M_4$ correspondientes a las funciones $f_1,\ldots,f_4$ anteriores son las siguientes:

M_1 = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix}, \hspace{4mm} M_2 = \begin{pmatrix} 1 & 0\\ 0 & 1 \end{pmatrix}, \hspace{4mm} M_3 = \begin{pmatrix} 0 & 1\\ 1 & 0 \end{pmatrix}, \hspace{4mm} M_4 = \begin{pmatrix} 0 & 0\\ 1 & 1 \end{pmatrix}.

Aquí hay una verificación rápida que muestra que la primera matriz es correcta. Las otras tres pueden comprobarse de manera similar.

\begin{aligned} M_1 \vert 0\rangle & = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1\\ 0 \end{pmatrix} = \begin{pmatrix} 1\\ 0 \end{pmatrix} = \vert 0\rangle = \vert f_1(0)\rangle \\[4mm] M_1 \vert 1\rangle & = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 0\\ 1 \end{pmatrix} = \begin{pmatrix} 1\\ 0 \end{pmatrix} = \vert 0\rangle = \vert f_1(1)\rangle \end{aligned}

Una forma conveniente de representar matrices de estas y otras formas hace uso de una notación análoga para vectores fila a la que se usó para vectores columna anteriormente: denotamos por $\langle a \vert$ el vector fila que tiene un $1$ en la entrada correspondiente a $a$ y cero en todas las demás entradas, para cada $a\in\Sigma.$ Este vector se lee como "bra $a.$ "

Por ejemplo, si $\Sigma = \{0,1\},$ entonces

\langle 0 \vert = \begin{pmatrix} 1 & 0 \end{pmatrix} \quad\text{y}\quad \langle 1 \vert = \begin{pmatrix} 0 & 1 \end{pmatrix}.

Para cualquier conjunto de estados clásicos $\Sigma,$ podemos ver los vectores fila y los vectores columna como matrices, y realizar la multiplicación matricial $\vert b\rangle \langle a\vert.$ Obtenemos una matriz cuadrada con un $1$ en la entrada correspondiente al par $(b,a),$ es decir, la fila de dicha entrada corresponde al estado clásico $b$ y la columna corresponde al estado clásico $a,$ con $0$ en todas las demás entradas. Por ejemplo,

\vert 0 \rangle \langle 1 \vert = \begin{pmatrix} 1\\ 0 \end{pmatrix} \begin{pmatrix} 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}.

Usando esta notación, podemos expresar la matriz $M$ que corresponde a cualquier función dada $f:\Sigma\rightarrow\Sigma$ como

M = \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert.

Por ejemplo, consideremos la función $f_4$ anterior, para la cual $\Sigma = \{0,1\}.$ Obtenemos la matriz

M_4 = \vert f_4(0) \rangle \langle 0 \vert + \vert f_4(1) \rangle \langle 1 \vert = \vert 1\rangle \langle 0\vert + \vert 1\rangle \langle 1\vert = \begin{pmatrix} 0 & 0\\ 1 & 0 \end{pmatrix} + \begin{pmatrix} 0 & 0\\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 0\\ 1 & 1 \end{pmatrix}.

La razón por la que esto funciona es la siguiente. Si volvemos a pensar en los vectores como matrices, y esta vez consideramos la multiplicación $\langle a \vert \vert b \rangle,$ obtenemos una matriz de $1\times 1$ , que podemos interpretar como un escalar (es decir, un número). Por cuestión de claridad, escribimos este producto como $\langle a \vert b\rangle$ en lugar de $\langle a \vert \vert b \rangle.$ Este producto satisface la siguiente fórmula sencilla:

\langle a \vert b \rangle = \begin{cases} 1 & a = b\\[1mm] 0 & a \neq b. \end{cases}

Usando esta observación, junto con el hecho de que la multiplicación matricial es asociativa y lineal, obtenemos

M \vert b \rangle = \Biggl( \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert \Biggr) \vert b\rangle = \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert b \rangle = \vert f(b)\rangle,

para cada $b\in\Sigma,$ que es exactamente lo que requerimos de la matriz $M.$

Como analizaremos con más detalle en una lección posterior, $\langle a \vert b \rangle$ también puede interpretarse como un producto interno entre los vectores $\vert a\rangle$ y $\vert b\rangle.$ Los productos internos son de vital importancia en la información cuántica, pero pospondremos su análisis hasta que sean necesarios.

En este punto, los nombres "bra" y "ket" pueden resultar evidentes: al unir un "bra" $\langle a\vert$ con un "ket" $\vert b\rangle$ se obtiene un "bracket" $\langle a \vert b\rangle.$ Esta notación y terminología se deben a Paul Dirac, y por esa razón se conoce como la notación de Dirac.

Operaciones probabilísticas y matrices estocásticas

Además de las operaciones deterministas, tenemos las operaciones probabilísticas.

Por ejemplo, considera la siguiente operación sobre un bit. Si el estado clásico del bit es $0,$ se deja sin cambios; y si el estado clásico del bit es $1,$ se invierte, de modo que se convierte en $0$ con probabilidad $1/2$ y en $1$ con probabilidad $1/2.$ Esta operación está representada por la matriz

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix}.

Puedes verificar que esta matriz hace lo correcto multiplicando los dos vectores de la base estándar por ella.

Para una elección arbitraria de un conjunto de estados clásicos, podemos describir el conjunto de todas las operaciones probabilísticas en términos matemáticos como aquellas representadas por matrices estocásticas, que son matrices que satisfacen estas dos propiedades:

Todas las entradas son números reales no negativos.
Las entradas de cada columna suman $1.$

De forma equivalente, las matrices estocásticas son aquellas cuyas columnas forman todas vectores de probabilidad.

Podemos pensar en las operaciones probabilísticas de forma intuitiva como aquellas en las que la aleatoriedad puede emplearse o introducirse de algún modo durante la operación, tal como ocurre en el ejemplo anterior. En cuanto a la descripción mediante matrices estocásticas de una operación probabilística, cada columna puede verse como la representación vectorial del estado probabilístico que se genera dado que el estado clásico de entrada corresponde a esa columna.

También podemos pensar en las matrices estocásticas como exactamente aquellas matrices que siempre transforman vectores de probabilidad en vectores de probabilidad. Es decir, las matrices estocásticas siempre llevan vectores de probabilidad a vectores de probabilidad, y cualquier matriz que siempre lleve vectores de probabilidad a vectores de probabilidad debe ser una matriz estocástica.

Por último, otra forma de pensar en las operaciones probabilísticas es que son elecciones aleatorias de operaciones deterministas. Por ejemplo, podemos pensar en la operación del ejemplo anterior como la aplicación de la función identidad o de la función constante 0, cada una con probabilidad $1/2.$ Esto es consistente con la ecuación

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & 0\\[1mm] 0 & 1 \end{pmatrix} + \frac{1}{2} \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix}.

Tal expresión siempre es posible, para cualquier elección de un conjunto de estados clásicos y cualquier matriz estocástica cuyas filas y columnas estén identificadas con dicho conjunto.

Composiciones de operaciones probabilísticas

Supongamos que $\mathsf{X}$ es un sistema con conjunto de estados clásicos $\Sigma,$ y que $M_1,\ldots,M_n$ son matrices estocásticas que representan operaciones probabilísticas sobre el sistema $\mathsf{X}.$

Si la primera operación $M_1$ se aplica al estado probabilístico representado por un vector de probabilidad $u,$ el estado probabilístico resultante está representado por el vector $M_1 u.$ Si luego aplicamos la segunda operación probabilística $M_2$ a este nuevo vector de probabilidad, obtenemos el vector de probabilidad

M_2 (M_1 u) = (M_2 M_1) u.

La igualdad se deriva del hecho de que la multiplicación matricial (que incluye la multiplicación matriz-vector como caso especial) es una operación asociativa. Así, la operación probabilística obtenida al componer la primera y la segunda operación probabilística, donde primero se aplica $M_1$ y luego $M_2,$ está representada por la matriz $M_2 M_1,$ que es necesariamente estocástica.

De forma más general, la composición de las operaciones probabilísticas representadas por las matrices $M_1,\ldots,M_n$ en ese orden —es decir, $M_1$ se aplica primero, $M_2$ se aplica en segundo lugar, y así sucesivamente, con $M_n$ aplicada al final— está representada por el producto matricial

M_n \,\cdots\, M_1.

Hay que tener en cuenta que el orden es importante aquí: aunque la multiplicación matricial es asociativa, no es una operación conmutativa. Por ejemplo, si

M_1 = \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix} \quad\text{y}\quad M_2 = \begin{pmatrix} 0 & 1\\[1mm] 1 & 0 \end{pmatrix},

entonces

M_2 M_1 = \begin{pmatrix} 0 & 0 \\[1mm] 1 & 1 \end{pmatrix} \quad\text{y}\quad M_1 M_2 = \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix}.

Es decir, el orden en que se componen las operaciones probabilísticas importa; cambiar el orden en que se aplican las operaciones en una composición puede modificar la operación resultante.

Estados clásicos y vectores de probabilidad​

Medición de estados probabilísticos​

Operaciones clásicas​

Operaciones deterministas​

Operaciones probabilísticas y matrices estocásticas​

Composiciones de operaciones probabilísticas​