👁️ Interacción visual (OCR)

J.A.R.V.I.S. puede ver y leer la pantalla utilizando el motor OCR nativo de Windows (Windows.Media.Ocr). Esto le permite hacer clic en texto visible, leer contenido de cualquier aplicación e interactuar con la interfaz de forma autónoma.

Clic por texto en pantalla

JARVIS busca el texto que usted indica en la pantalla y hace clic en él. Utiliza una estrategia escalonada:

Ctrl+F Highlight

Usa Ctrl+F para buscar el texto. Detecta el resaltado naranja del navegador y hace clic en él. Funciona especialmente bien en Chrome.

UI Automation

Usa la API de Windows UI Automation para buscar elementos interactivos por nombre. Ideal para botones, menús y controles nativos.

OCR (fallback)

Captura la pantalla, extrae texto con OCR y calcula las coordenadas del texto buscado para hacer clic.

Ejemplos de uso

Comando	Qué hace
`Haz clic donde pone Configuración`	Busca "Configuración" en pantalla y hace clic
`Pulsa en el botón de enviar`	Clic inteligente por descripción (usa LLM + OCR)
`Entra en el primer resultado`	Clic en el primer resultado de Google

Doble clic automático

⚠️ Clic simple vs. doble clic

En el Explorador de archivos y el escritorio de Windows, un clic simple solo selecciona el elemento. Para abrirlo se necesita doble clic.

JARVIS gestiona esto de forma inteligente:

Si el agente autónomo planifica un click_on_text y la pantalla no cambia (el elemento solo se selecciona), JARVIS reintenta automáticamente con doble clic.
El agente IA también recibe instrucciones para usar double_click directamente cuando el contexto lo requiere (archivos, carpetas, iconos del escritorio).

Si necesita forzar un doble clic manualmente:

Haz doble clic en MiArchivo.pdf

Lectura de pantalla

JARVIS puede leer todo el texto visible en la pantalla:

Comando	Qué hace
`¿Qué hay en la pantalla?`	Lee todo el texto visible con OCR
`Lee la pantalla`	Igual que arriba

Esta capacidad es la base del agente autónomo: JARVIS lee la pantalla, planifica pasos y ejecuta acciones para completar tareas complejas de forma independiente.

El agente autónomo

Para tareas complejas que requieren varios pasos, JARVIS activa su agente autónomo, alimentado por IA cloud (GPT-4o-mini vía GitHub Models o Gemini 2.0 Flash) que le da la inteligencia para planificar y razonar sobre cada paso:

Lee la pantalla (OCR) para entender el contexto actual
Planifica una lista de pasos mecánicos con la IA cloud (abrir app, hacer clic, escribir…)
Ejecuta cada paso secuencialmente, verificando tras cada acción que la pantalla cambió
Si algo falla, replanifica automáticamente con la nueva información de la pantalla
Si completa la tarea, guarda el procedimiento para ejecutarlo más rápido en el futuro

Ejemplos reales del agente autónomo

«Envía un WhatsApp a Alejandro diciendo hola» → abre WhatsApp Web, busca contacto, escribe y envía
«Mira el ejercicio 2 del PDF y resuélvelo en Word» → lee el PDF con OCR, razona la solución con IA, cambia a Word y escribe la respuesta
«Entra en Aules FP y sube la actividad del tema 6» → navega a Moodle, busca la asignatura, encuentra la entrega y sube el archivo
«Busca en Google cómo hacer X e instálalo» → abre Chrome, busca, lee resultados, ejecuta los pasos

💡 Aprendizaje de procedimientos

Si una tarea multi-paso se completa con éxito, JARVIS la guarda como procedimiento para ejecutarla más rápido la próxima vez. Solo se guardan procedimientos que superan una validación de coherencia (los pasos deben corresponder al objetivo). Vea Memoria y aprendizaje.

Si el OCR no funciona correctamente, consulte 🔗 Resolución de problemas → OCR / Clic incorrecto.

Anterior← Catálogo de comandos SiguienteConfiguración →