J.A.R.V.I.S.

Sistema de Ayuda

👁️ Interacción visual (OCR)

J.A.R.V.I.S. puede ver y leer la pantalla utilizando el motor OCR nativo de Windows (Windows.Media.Ocr). Esto le permite hacer clic en texto visible, leer contenido de cualquier aplicación e interactuar con la interfaz de forma autónoma.

Clic por texto en pantalla

JARVIS busca el texto que usted indica en la pantalla y hace clic en él. Utiliza una estrategia escalonada:

1

Ctrl+F Highlight

Usa Ctrl+F para buscar el texto. Detecta el resaltado naranja del navegador y hace clic en él. Funciona especialmente bien en Chrome.

2

UI Automation

Usa la API de Windows UI Automation para buscar elementos interactivos por nombre. Ideal para botones, menús y controles nativos.

3

OCR (fallback)

Captura la pantalla, extrae texto con OCR y calcula las coordenadas del texto buscado para hacer clic.

Ejemplos de uso

ComandoQué hace
Haz clic donde pone ConfiguraciónBusca "Configuración" en pantalla y hace clic
Pulsa en el botón de enviarClic inteligente por descripción (usa LLM + OCR)
Entra en el primer resultadoClic en el primer resultado de Google

Doble clic automático

⚠️ Clic simple vs. doble clic

En el Explorador de archivos y el escritorio de Windows, un clic simple solo selecciona el elemento. Para abrirlo se necesita doble clic.

JARVIS gestiona esto de forma inteligente:

Si necesita forzar un doble clic manualmente:

Haz doble clic en MiArchivo.pdf

Lectura de pantalla

JARVIS puede leer todo el texto visible en la pantalla:

ComandoQué hace
¿Qué hay en la pantalla?Lee todo el texto visible con OCR
Lee la pantallaIgual que arriba

Esta capacidad es la base del agente autónomo: JARVIS lee la pantalla, planifica pasos y ejecuta acciones para completar tareas complejas de forma independiente.

El agente autónomo

Para tareas complejas que requieren varios pasos, JARVIS activa su agente autónomo, alimentado por IA cloud (GPT-4o-mini vía GitHub Models o Gemini 2.0 Flash) que le da la inteligencia para planificar y razonar sobre cada paso:

  1. Lee la pantalla (OCR) para entender el contexto actual
  2. Planifica una lista de pasos mecánicos con la IA cloud (abrir app, hacer clic, escribir…)
  3. Ejecuta cada paso secuencialmente, verificando tras cada acción que la pantalla cambió
  4. Si algo falla, replanifica automáticamente con la nueva información de la pantalla
  5. Si completa la tarea, guarda el procedimiento para ejecutarlo más rápido en el futuro

Ejemplos reales del agente autónomo

💡 Aprendizaje de procedimientos

Si una tarea multi-paso se completa con éxito, JARVIS la guarda como procedimiento para ejecutarla más rápido la próxima vez. Solo se guardan procedimientos que superan una validación de coherencia (los pasos deben corresponder al objetivo). Vea Memoria y aprendizaje.

Si el OCR no funciona correctamente, consulte 🔗 Resolución de problemas → OCR / Clic incorrecto.

💡 El OCR funciona con el idioma es-ES de Windows. Verifique que está instalado en Configuración → Idioma.