📘 ¿Qué es J.A.R.V.I.S.?
J.A.R.V.I.S. (Just A Rather Very Intelligent System) es un asistente de escritorio con inteligencia artificial para Windows 10/11, inspirado en el J.A.R.V.I.S. de Iron Man.
Es una aplicación de código abierto, 100% funcional, que permite al usuario controlar su ordenador mediante lenguaje natural — por texto o por voz — con un modelo de IA que se ejecuta localmente (Ollama con Mistral) o mediante APIs cloud gratuitas (GitHub Models con GPT-4o-mini o Google Gemini 2.0 Flash).
No es solo un asistente de comandos: JARVIS tiene un agente autónomo capaz de leer la pantalla, planificar una secuencia de pasos y ejecutarlos de forma independiente para resolver tareas complejas — desde enviar un WhatsApp hasta resolver ejercicios de un PDF y escribir las soluciones en Word.
Usuarios de Windows que quieran automatizar tareas cotidianas: abrir apps, buscar en internet, gestionar archivos, resolver ejercicios de PDF, controlar Spotify, y mucho más — todo hablando o escribiendo.
✨ Características principales
| Módulo | Descripción |
|---|---|
| 🧠 Cerebro IA | Conversación natural con modelos de lenguaje. Modo local: Ollama (Mistral, LLaMA 3, Phi-3). Modo cloud: GitHub Models (GPT-4o-mini, 20K req/día gratis) o Google Gemini (Gemini 2.0 Flash, gratuito) |
| 🎙️ Voz | Entrada por voz con faster-whisper + salida TTS con Piper (voz natural en español) |
| 👁️ Visión OCR | Lee la pantalla con Windows.Media.Ocr nativo. Hace clic inteligente por texto o descripción |
| ⚙️ Sistema | Abre/cierra apps, ajusta volumen/brillo, gestiona ventanas/pestañas, portapapeles |
| 🌐 Web | Búsquedas en Google (abre pestaña real en el navegador) |
| 📁 Archivos | Abrir, crear, mover, copiar, buscar y organizar archivos |
| 📄 Documentos | Leer y resumir PDF, Word, Excel, CSV, JSON. Resolver ejercicios automáticamente |
| 🤖 Agente autónomo | Planifica y ejecuta tareas complejas de múltiples pasos de forma independiente. Lee la pantalla, interactúa con apps, verifica resultados y aprende procedimientos para el futuro |
| Envío de correos electrónicos con SMTP | |
| 💻 Código | Ejecutar scripts Python en sandbox seguro |
| ⏰ Automatización | Timers, recordatorios, tareas programadas, calendario local |
| 🧠 Memoria | Recuerda conversaciones y preferencias en SQLite. Aprende procedimientos |
| 🎵 Multimedia | Media keys, control de Spotify, YouTube, volumen por aplicación |
| 🔌 Plugins | Sistema extensible con carga automática y hot-reload |
📋 Requisitos del sistema
Hardware
| Mínimo | Recomendado | |
|---|---|---|
| OS | Windows 10 | Windows 11 |
| RAM | 8 GB | 16 GB |
| Disco | ~5 GB | ~10 GB |
| CPU | x64 moderno | i5 / Ryzen 5 o superior |
| GPU | No necesaria | NVIDIA (CUDA) para acelerar Whisper |
Software
- Python 3.11+ — python.org (marcar "Add Python to PATH")
- Ollama — ollama.com (motor de IA local)
- Git — git-scm.com
Puede usar el modo cloud para ejecutar la IA en servidores remotos (GitHub Models o Gemini) sin consumo de recursos locales.
Tecnologías utilizadas
| Componente | Tecnología |
|---|---|
| LLM | Ollama + Mistral (local) / GitHub Models (GPT-4o-mini) / Google Gemini (2.0 Flash) (cloud) |
| STT (voz → texto) | faster-whisper (modelo small, español) |
| TTS (texto → voz) | Piper TTS (es_ES-davefx-medium) |
| OCR | Windows.Media.Ocr nativo (Win10/11) |
| Interfaz | PySide6 (Qt for Python) |
| Automatización | pyautogui + Win32 API via PowerShell |
| UI Automation | System.Windows.Automation via PowerShell |
| Base de datos | SQLite3 (stdlib) |