Introducción al Quantum Machine Learning
Descripción general y motivación
Antes de comenzar, por favor completa esta breve encuesta previa al curso: es importante para mejorar nuestra oferta de contenido y la experiencia del usuario.
¡Bienvenido al Quantum Machine Learning!
El siguiente video ofrece una breve introducción que se complementa con el texto a continuación.
Para un breve resumen y complemento del video:
- Hemos presenciado que un problema se resolvió por primera vez en una computadora cuántica y luego las personas encontraron una forma de resolverlo en una supercomputadora clásica. Este ciclo, en el que la computación clásica y cuántica se empujan mutuamente a sus límites, probablemente continuará durante varios años más.
- Existen problemas específicos donde la computación cuántica puede ofrecer una ventaja demostrable sobre la computación clásica, siempre que se logren avances en la reducción de errores y en el número de qubits disponibles. Pero aún estamos en una fase de exploración, buscando conjuntos de datos aptos para lo cuántico y mapas de características cuánticos útiles.
- El Quantum Machine Learning (QML) es uno de muchos campos emocionantes donde la computación cuántica puede complementar o ampliar los flujos de trabajo clásicos existentes.
El Machine Learning (ML) aplica algoritmos a conjuntos de datos, por lo que el QML podría plausiblemente incorporar la mecánica cuántica en el lado de los datos o de los algoritmos, o en ambos. Todas estas posibilidades son potencialmente interesantes. Sin embargo, nos centraremos principalmente en algoritmos cuánticos aplicados a datos clásicos. Una razón es que los problemas de ML con datos clásicos ya han sido ampliamente estudiados y están ampliamente disponibles. Existe un gran interés en resolver problemas que comienzan con datos clásicos. Otra razón es la falta de QRAM. Sin la posibilidad de almacenar grandes cantidades de datos cuánticos durante un período prolongado, los métodos que comienzan con datos cuánticos aún están lejos de la aplicabilidad industrial. También es incierto cómo los datos clásicos pueden hacerse "accesibles cuánticamente" de manera eficiente. Dos tipos de ML particularmente interesantes son el aprendizaje supervisado, donde un algoritmo se entrena con un conjunto de datos etiquetados, y el aprendizaje no supervisado, donde el algoritmo intenta aprender una distribución a partir de muestras no etiquetadas. Un algoritmo no supervisado podría, por ejemplo, aprender a generar nuevas muestras de la misma distribución o agrupar las muestras en grupos con características similares.

La imagen izquierda muestra dos categorías de datos etiquetados, como en el aprendizaje supervisado. En este caso, las categorías son linealmente separables. La imagen derecha muestra clústeres de datos. En una tarea de aprendizaje no supervisado, estos datos inicialmente no estarían etiquetados, y el algoritmo examinaría la distribución y posiblemente buscaría clústeres. Para visualizar los clústeres identificados por el algoritmo a modo de ejemplo, los puntos de datos se han etiquetado ahora. Una diferencia fundamental entre ambos es que el proceso de aprendizaje supervisado comienza con datos ya etiquetados, mientras que el proceso no supervisado comienza con datos no etiquetados, aunque los datos pueden terminar con etiquetas al final.
Quienes estén familiarizados con el Machine Learning ya saben que muchos métodos de solución implican mapear datos a espacios de mayor dimensión. Esto se ha investigado especialmente en el contexto de los kernels. Como breve recordatorio: a veces los datos pueden separarse por una línea, un plano o un hiperplano (a menudo decimos simplemente "hiperplano" por simplicidad) en las mismas dimensiones en las que se presentan. Eso muestra la primera imagen arriba. A veces, sin embargo, los datos no son separables por un hiperplano en esas dimensiones, como muestra la segunda imagen. No obstante, puede existir una estructura en los datos que puede aprovecharse mediante un mapeo a dimensiones más altas, de modo que los datos sean separables en ese espacio de mayor dimensión. Esto lo ilustra el mapeo de los datos 2D con simetría circular al espacio 3D, donde los puntos de datos están dispuestos a lo largo de una superficie paraboloide.

Un objetivo común en QML es encontrar un mapeo del espacio de características de menor dimensión a un espacio de mayor dimensión que separe nuestros puntos de datos de manera tan efectiva que podamos usar el mapeo para clasificar nuevos puntos de datos. Sin embargo, esto no es una tarea fácil, y cualquier discusión sobre el potencial beneficio de la computación cuántica en el Machine Learning debe ir acompañada de las limitaciones correspondientes. En particular, debemos abordar los matices en la selección de conjuntos de datos y los desafíos para alcanzar la escala de utilidad. También debemos dejar de intentar superar a los algoritmos clásicos de ML en datos que los algoritmos clásicos ya manejan de manera eficiente y buena, y en su lugar desplazar la discusión hacia la exploración de nuevos mapas de características que podrían ser útiles.
Gestión de expectativas
Muchos de los conjuntos de datos descritos en la literatura para aplicaciones de QML están "diseñados por características" (feature-engineered), es decir, se selecciona o genera específicamente un conjunto de datos para demostrar un caso de uso estrecho en el que la computación cuántica es útil. Si esto suena a trampa, hemos malinterpretado la tarea real. No es que algunos mapas de características cuánticos nos permitan resolver todas o muchas tareas de clasificación de manera más eficiente o escalable que los algoritmos clásicos de ML. Más bien, algunos mapas de características cuánticos (no todos) se comportan de manera diferente a los clásicos. La tarea real consiste en investigar circuitos cuánticos en el contexto de estructuras de datos complejas. Algunas preguntas concretas son:
- ¿Qué circuitos cuánticos se comportan de manera más novedosa en comparación con alternativas clásicas?
- ¿Existen problemas reales con datos cuyas propiedades se investigan mejor con tales circuitos cuánticos novedosos?
- ¿Escalan estos circuitos cuánticos en computadoras cuánticas near-term?
Explicación insuficiente
Frecuentemente se encuentra una explicación simplificada de cómo la computación cuántica puede ser poderosa. Dice algo así:
Así como las computadoras clásicas usan bits de información, las computadoras cuánticas usan qubits. Para un cierto número de bits, digamos 4, una computadora clásica puede asumir cualquiera de los estados posibles, mientras que una computadora cuántica puede existir en una superposición de los 16 estados simultáneamente, y las operaciones pueden realizarse sobre toda esta superposición. En algunos casos, esto nos permite diseñar de manera natural algoritmos de aprendizaje potencialmente interesantes basados en mapeos a espacios de mayor dimensión.
Esta es una afirmación correcta, pero es insuficiente y algo engañosa, como explicaremos. También se destacan las diferencias entre coeficientes complejos y reales, por ejemplo:
Un sistema clásico probabilístico, en el que un sistema puede describirse como estando en diferentes estados con ciertas probabilidades, puede representarse de la siguiente manera.
En tal sistema, los coeficientes , , , etc., solo pueden tener sentido si son números reales positivos. Los estados en las computadoras cuánticas se describen mediante amplitudes de probabilidad, que pueden ser números complejos.
Las afirmaciones anteriores se formularon con mucho cuidado para que sean correctas (muchas afirmaciones superficialmente similares son falsas). Pero estas afirmaciones correctas no explican el poder de la computación cuántica en el Machine Learning. Por un lado, cualquier aplicación de la computación cuántica al Machine Learning implicará mediciones, y no podemos medir un qubit de modo que esté simultáneamente en múltiples estados. Podemos preparar un qubit en una superposición como