Usar Qiskit Code Assistant en modo local
Aprende a instalar, configurar y usar cualquiera de los modelos de Qiskit Code Assistant en tu máquina local.
- Qiskit Code Assistant está en estado de versión preliminar y puede cambiar.
- Si tienes comentarios o quieres contactar al equipo de desarrollo, usa el canal del espacio de trabajo de Qiskit en Slack o los repositorios públicos de GitHub relacionados.
Inicio rápido (recomendado)
La forma más sencilla de comenzar con Qiskit Code Assistant en modo local es usar los scripts de configuración automatizada para la extensión de VS Code o de JupyterLab. Estos scripts instalarán automáticamente Ollama para ejecutar los LLMs, descargarán el modelo recomendado y configurarán la extensión por ti.
Configuración de la extensión de VS Code
Ejecuta el siguiente comando en tu terminal:
bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-vscode/main/setup_local.sh)
Este script realiza los siguientes pasos:
- Instalar Ollama (si no está instalado aún)
- Descargar y configurar el modelo de Qiskit Code Assistant recomendado
- Configurar la extensión de VS Code para que funcione con tu despliegue local
Configuración de la extensión de JupyterLab
Ejecuta el siguiente comando en tu terminal:
bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-jupyterlab/main/setup_local.sh)
Este script:
- Instalará Ollama (si no está instalado aún)
- Descargará y configurará el modelo de Qiskit Code Assistant recomendado
- Configurará la extensión de JupyterLab para que funcione con tu despliegue local
Modelos disponibles
Modelos actuales
Estos son los últimos modelos recomendados para usar con Qiskit Code Assistant:
- Qiskit/mistral-small-3.2-24b-qiskit - Publicado en octubre de 2025
- qiskit/qwen2.5-coder-14b-qiskit - Publicado en junio de 2025
- qiskit/granite-3.3-8b-qiskit - Publicado en junio de 2025
- qiskit/granite-3.2-8b-qiskit - Publicado en junio de 2025
Modelos GGUF (recomendados para entornos personales/laptops)
Los modelos en formato GGUF están optimizados para uso local y requieren menos recursos computacionales:
-
mistral-small-3.2-24b-qiskit-GGUF – Publicado en octubre de 2025 Entrenado con datos de Qiskit hasta la versión 2.1
-
qiskit/qwen2.5-coder-14b-qiskit-GGUF – Publicado en junio de 2025 Entrenado con datos de Qiskit hasta la versión 2.0
-
qiskit/granite-3.3-8b-qiskit-GGUF – Publicado en junio de 2025 Entrenado con datos de Qiskit hasta la versión 2.0
-
qiskit/granite-3.2-8b-qiskit-GGUF – Publicado en junio de 2025 Entrenado con datos de Qiskit hasta la versión 2.0
Los modelos de código abierto de Qiskit Code Assistant están disponibles en formato safetensors o GGUF y se pueden descargar desde Hugging Face tal como se explica a continuación.
Versiones de Qiskit usadas para el entrenamiento
| Modelo | Métricas de referencia | Fecha de publicación | Entrenado en la versión de Qiskit | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| QiskitHumanEval-Hard | QiskitHumanEval | HumanEval | ASDiv | MathQA | SciQ | MBPP | IFEval | CrowsPairs (inglés) | TruthfulQA (MC1 acc) | |||
| mistral-small-3.2-24b-qiskit | 32.45 | 47.02 | 77.49 | 3.77 | 49.68 | 97.50 | 64.00 | 48.44 | 67.08 | 39.41 | enero de 2026 | 2.2 |
| qwen2.5-coder-14b-qiskit | 25.17 | 49.01 | 91.46 | 4.21 | 53.90 | 97.00 | 77.60 | 49.64 | 65.18 | 37.82 | junio de 2025 | 2.0 |
| granite-3.3-8b-qiskit | 14.57 | 27.15 | 62.80 | 0.48 | 38.66 | 93.30 | 52.40 | 59.71 | 59.75 | 39.05 | junio de 2025 | 2.0 |
| granite-3.2-8b-qiskit | 9.93 | 24.50 | 57.32 | 0.09 | 41.41 | 96.30 | 51.80 | 60.79 | 66.79 | 40.51 | junio de 2025 | 2.0 |
| granite-8b-qiskit-rc-0.10 | 15.89 | 38.41 | 59.76 | — | — | — | — | — | — | — | febrero de 2025 | 1.3 |
| granite-8b-qiskit | 17.88 | 44.37 | 53.66 | — | — | — | — | — | — | — | noviembre de 2024 | 1.2 |
Nota: Todos los modelos listados en la tabla de referencia fueron evaluados usando su system prompt correspondiente, definido en su modelo de Hugging Face.
Modelos obsoletos
Estos modelos ya no se mantienen activamente pero siguen estando disponibles:
- qiskit/granite-8b-qiskit-rc-0.10 - Publicado en febrero de 2025 (obsoleto)
- qiskit/granite-8b-qiskit - Publicado en noviembre de 2024 (obsoleto)
Configuración avanzada
Si prefieres configurar tu entorno local de forma manual o necesitas más control sobre el proceso de instalación, expande las secciones a continuación.
Descargar desde el sitio web de Hugging Face
Sigue estos pasos para descargar cualquier modelo relacionado con Qiskit Code Assistant desde el sitio web de Hugging Face:
- Navega a la página del modelo de Qiskit deseado en Hugging Face.
- Ve a la pestaña Files and Versions y descarga los archivos del modelo en formato safetensors o GGUF.
Descargar usando la CLI de Hugging Face
Para descargar cualquiera de los modelos de Qiskit Code Assistant disponibles usando la CLI de Hugging Face, sigue estos pasos:
-
Instala la CLI de Hugging Face
-
Inicia sesión en tu cuenta de Hugging Face
huggingface-cli login -
Descarga el modelo que prefieras de la lista anterior
huggingface-cli download <HF REPO NAME> <MODEL PATH> --local-dir <LOCAL PATH>
Desplegar manualmente los modelos de Qiskit Code Assistant en local a través de Ollama
Hay múltiples formas de desplegar e interactuar con el modelo de Qiskit Code Assistant descargado. Esta guía demuestra el uso de Ollama de las siguientes maneras: ya sea con la aplicación Ollama usando la integración con Hugging Face Hub o un modelo local, o con el paquete llama-cpp-python.
Usar la aplicación Ollama
La aplicación Ollama proporciona una solución sencilla para ejecutar LLMs de forma local. Es fácil de usar, con una CLI que simplifica bastante todo el proceso de configuración, la gestión de modelos y la interacción. Es ideal para experimentar rápidamente y para usuarios que quieren manejar menos detalles técnicos.
Instalar Ollama
-
Descarga la aplicación Ollama
-
Instala el archivo descargado
-
Inicia la aplicación Ollama instalada
informaciónLa aplicación se está ejecutando correctamente cuando el ícono de Ollama aparece en la barra de menú del escritorio. También puedes verificar que el servicio está en funcionamiento accediendo ahttp://localhost:11434/. -
Prueba Ollama en tu terminal y comienza a ejecutar modelos. Por ejemplo:
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
Configurar Ollama usando la integración con Hugging Face Hub
La integración Ollama/Hugging Face Hub proporciona una forma de interactuar con modelos alojados en Hugging Face Hub sin necesidad de crear un nuevo modelfile ni descargar manualmente los archivos GGUF o safetensors. Los archivos template y params predeterminados ya están incluidos para el modelo en Hugging Face Hub.
-
Asegúrate de que la aplicación Ollama esté en ejecución.
-
Ve a la página del modelo deseado y copia la URL. Por ejemplo, https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF.
-
Desde tu terminal, ejecuta el comando:
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
Puedes usar el modelo hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit o cualquiera de los otros modelos GGUF oficiales recomendados actualmente: hf.co/Qiskit/mistral-small-3.2-24b-qiskit-GGUF o hf.co/Qiskit/granite-3.3-8b-qiskit-GGUF.
Configurar Ollama con un modelo GGUF de Qiskit Code Assistant descargado manualmente
Si descargaste manualmente un modelo GGUF como https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF y quieres experimentar con diferentes plantillas y parámetros, puedes seguir estos pasos para cargarlo en tu aplicación local de Ollama.
-
Crea un
Modelfilecon el siguiente contenido y asegúrate de actualizar<PATH-TO-GGUF-FILE>con la ruta real de tu modelo descargado.FROM <PATH-TO-GGUF-FILE>
TEMPLATE """{{ if .System }}
System:
{{ .System }}
{{ end }}{{ if .Prompt }}Question:
{{ .Prompt }}
{{ end }}Answer:
```python{{ .Response }}
"""
PARAMETER stop "Question:"
PARAMETER stop "Answer:"
PARAMETER stop "System:"
PARAMETER stop "```"
PARAMETER temperature 0
PARAMETER top_k 1 -
Run the following command to create a custom model instance based on the
Modelfile.ollama create Qwen2.5-Coder-14B-Qiskit -f ./path-to-model-filenotaThis process may take some time for Ollama to read the model file, initialize the model instance, and configure it according to the specifications provided.
Run the Qiskit Code Assistant model manually downloaded in Ollama
After the Qwen2.5-Coder-14B-Qiskit model has been set up in Ollama, run the following command to launch the model and interact with it in the terminal (in chat mode).
ollama run Qwen2.5-Coder-14B-Qiskit
Some useful commands:
ollama list- List models on your computerollama rm Qwen2.5-Coder-14B-Qiskit- Delete the modelollama show Qwen2.5-Coder-14B-Qiskit- Show model informationollama stop Qwen2.5-Coder-14B-Qiskit- Stop a model that is currently runningollama ps- List which models are currently loaded
Manually deploy the Qiskit Code Assistant models in local through the llama-cpp-python package
An alternative to the Ollama application is the llama-cpp-python package, which is a Python binding for llama.cpp. It gives you more control and flexibility to run the GGUF model locally, and is ideal for users who wish to integrate the local model in their workflows and Python applications.
- Install
llama-cpp-python - Interact with the model from within your application using
llama_cpp. For example:
from llama_cpp import Llama
model_path = <PATH-TO-GGUF-FILE>
model = Llama(
model_path,
seed=17,
n_ctx=10000,
n_gpu_layers=37, # to offload in gpu, but put 0 if all in cpu
)
input = 'Generate a quantum circuit with 2 qubits'
raw_pred = model(input)["choices"][0]["text"]
También puede agregar parámetros de generación de texto al modelo para personalizar la inferencia:
generation_kwargs = {
"max_tokens": 512,
"echo": False, # Echo the prompt in the output
"top_k": 1
}
raw_pred = model(input, **generation_kwargs)["choices"][0]["text"]
Desplegar manualmente los modelos de Qiskit Code Assistant en local mediante llama.cpp
Usar la biblioteca llama.cpp
Otra alternativa es usar llama.cpp, una biblioteca de código abierto para realizar inferencia de LLM en una CPU con una configuración mínima.
Proporciona control de bajo nivel sobre la ejecución del modelo y se ejecuta típicamente desde la línea de comandos, apuntando a un archivo de modelo GGUF local.
Hay varias formas de instalar llama.cpp en su máquina:
- Instalar llama.cpp usando brew, nix o winget
- Ejecutar con Docker: Consulte la documentación de Docker del equipo de
llama.cpp - Descargar binarios precompilados de la página de lanzamientos
- Compilar desde el código fuente clonando este repositorio
Una vez instalado, puede usar llama.cpp para interactuar con modelos GGUF en modo conversación de la siguiente manera:
# Use a local model file
llama-cli -m my_model.gguf -cnv
# Or download and run a model directly from Hugging Face
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF -cnv
También puede lanzar un servidor de API compatible con OpenAI para el modelo de la siguiente manera:
llama-server -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF
Parámetros avanzados
Con el programa llama-cli, puede controlar la generación del modelo usando opciones de línea de comandos. Por ejemplo, puede proporcionar un prompt inicial de “sistema” usando la bandera -p/--prompt. En modo conversación (-cnv), este prompt inicial actúa como el mensaje del sistema. De lo contrario, puede simplemente anteponer cualquier instrucción deseada al texto de su prompt. También puede ajustar los parámetros de muestreo — por ejemplo: temperatura (--temp), top-k (--top-k), top-p (--top-p), penalización de repetición (--repeat-penalty) y la semilla a usar (--seed). El siguiente es un ejemplo de invocación usando estas opciones:
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF \
-p "You are a friendly assistant." -cnv \
--temp 0.7 \
--top-k 50 \
--top-p 0.95 \
--repeat-penalty 1.1 \
--seed 42
Para garantizar el funcionamiento correcto de nuestros modelos de Qiskit, recomendamos usar el system prompt proporcionado en nuestros repositorios HF GGUF: system prompt para mistral-small-3.2-24b-qiskit-GGUF, Qwen2.5-Coder-14B-Qiskit-GGUF, granite-3.3-8b-qiskit-GGUF y granite-3.2-8b-qiskit-GGUF.
Conectar manualmente las extensiones al despliegue local
Usa la extensión de VS Code y la extensión de JupyterLab para Qiskit Code Assistant para interactuar con el modelo de Qiskit Code Assistant desplegado localmente. Una vez que tengas la aplicación Ollama configurada con el modelo, puedes configurar las extensiones para que se conecten al servicio local.
Conectar con la extensión de VS Code de Qiskit Code Assistant
Con la extensión de VS Code de Qiskit Code Assistant, puedes interactuar con el modelo y realizar completado de código mientras escribes tu código. Esto puede resultar muy útil para usuarios que buscan asistencia para escribir código Qiskit en sus aplicaciones Python.
- Instala la extensión de VS Code de Qiskit Code Assistant.
- En VS Code, ve a Configuración de usuario y establece Qiskit Code Assistant: Url como la URL de tu despliegue local de Ollama (por ejemplo,
http://localhost:11434). - Recarga VS Code yendo a Ver > Paleta de comandos... y seleccionando Desarrollador: Recargar ventana.
El modelo de Qiskit Code Assistant configurado en Ollama debería aparecer en la barra de estado y ya estará listo para usar.
Conectar con la extensión de JupyterLab de Qiskit Code Assistant
Con la extensión de JupyterLab de Qiskit Code Assistant, puedes interactuar con el modelo y realizar completado de código directamente en tu Jupyter Notebook. Los usuarios que trabajan principalmente con Jupyter Notebooks pueden aprovechar esta extensión para mejorar aún más su experiencia escribiendo código Qiskit.
- Instala la extensión de JupyterLab de Qiskit Code Assistant.
- En JupyterLab, ve al Editor de configuración y establece la API del servicio de Qiskit Code Assistant como la URL de tu despliegue local de Ollama (por ejemplo,
http://localhost:11434).
El modelo de Qiskit Code Assistant configurado en Ollama debería aparecer en la barra de estado y ya estará listo para usar.