👁️ Interacción visual (OCR)
J.A.R.V.I.S. puede ver y leer la pantalla utilizando el motor OCR nativo de Windows (Windows.Media.Ocr). Esto le permite hacer clic en texto visible, leer contenido de cualquier aplicación e interactuar con la interfaz de forma autónoma.
Clic por texto en pantalla
JARVIS busca el texto que usted indica en la pantalla y hace clic en él. Utiliza una estrategia escalonada:
Ctrl+F Highlight
Usa Ctrl+F para buscar el texto. Detecta el resaltado naranja del navegador y hace clic en él. Funciona especialmente bien en Chrome.
UI Automation
Usa la API de Windows UI Automation para buscar elementos interactivos por nombre. Ideal para botones, menús y controles nativos.
OCR (fallback)
Captura la pantalla, extrae texto con OCR y calcula las coordenadas del texto buscado para hacer clic.
Ejemplos de uso
| Comando | Qué hace |
|---|---|
Haz clic donde pone Configuración | Busca "Configuración" en pantalla y hace clic |
Pulsa en el botón de enviar | Clic inteligente por descripción (usa LLM + OCR) |
Entra en el primer resultado | Clic en el primer resultado de Google |
Doble clic automático
En el Explorador de archivos y el escritorio de Windows, un clic simple solo selecciona el elemento. Para abrirlo se necesita doble clic.
JARVIS gestiona esto de forma inteligente:
- Si el agente autónomo planifica un
click_on_texty la pantalla no cambia (el elemento solo se selecciona), JARVIS reintenta automáticamente con doble clic. - El agente IA también recibe instrucciones para usar
double_clickdirectamente cuando el contexto lo requiere (archivos, carpetas, iconos del escritorio).
Si necesita forzar un doble clic manualmente:
Haz doble clic en MiArchivo.pdf
Lectura de pantalla
JARVIS puede leer todo el texto visible en la pantalla:
| Comando | Qué hace |
|---|---|
¿Qué hay en la pantalla? | Lee todo el texto visible con OCR |
Lee la pantalla | Igual que arriba |
Esta capacidad es la base del agente autónomo: JARVIS lee la pantalla, planifica pasos y ejecuta acciones para completar tareas complejas de forma independiente.
El agente autónomo
Para tareas complejas que requieren varios pasos, JARVIS activa su agente autónomo, alimentado por IA cloud (GPT-4o-mini vía GitHub Models o Gemini 2.0 Flash) que le da la inteligencia para planificar y razonar sobre cada paso:
- Lee la pantalla (OCR) para entender el contexto actual
- Planifica una lista de pasos mecánicos con la IA cloud (abrir app, hacer clic, escribir…)
- Ejecuta cada paso secuencialmente, verificando tras cada acción que la pantalla cambió
- Si algo falla, replanifica automáticamente con la nueva información de la pantalla
- Si completa la tarea, guarda el procedimiento para ejecutarlo más rápido en el futuro
Ejemplos reales del agente autónomo
- «Envía un WhatsApp a Alejandro diciendo hola» → abre WhatsApp Web, busca contacto, escribe y envía
- «Mira el ejercicio 2 del PDF y resuélvelo en Word» → lee el PDF con OCR, razona la solución con IA, cambia a Word y escribe la respuesta
- «Entra en Aules FP y sube la actividad del tema 6» → navega a Moodle, busca la asignatura, encuentra la entrega y sube el archivo
- «Busca en Google cómo hacer X e instálalo» → abre Chrome, busca, lee resultados, ejecuta los pasos
Si una tarea multi-paso se completa con éxito, JARVIS la guarda como procedimiento para ejecutarla más rápido la próxima vez. Solo se guardan procedimientos que superan una validación de coherencia (los pasos deben corresponder al objetivo). Vea Memoria y aprendizaje.
Si el OCR no funciona correctamente, consulte 🔗 Resolución de problemas → OCR / Clic incorrecto.