Projet ICARUS
Innov8 Custom AI Response Unified System
Architecture d'intelligence artificielle souveraine. L'alternative locale et privée aux solutions Cloud pour le groupe Innov8.
La Genèse
ICARUS est né d'un constat simple : l'IA générative est devenue un outil de productivité indispensable, mais l'externalisation de nos données métier sur des serveurs tiers représente un risque de souveraineté inacceptable.
La Vision
Nous ne construisons pas juste un chatbot. Nous architecturons un système capable de comprendre et d'analyser nos flux internes (EDI, rapports, documentation) sans jamais franchir les frontières du réseau Innov8.
Capacités Validées
Malgré les contraintes de vitesse actuelles, le POC a démontré une polyvalence exceptionnelle. Tout ce qui suit est opérationnel en environnement local :
Intelligence Agentique
- Personnalité "Bruce" via rules.md
- Skills avancés en Code & Git
- Pilotage de Projet
Gestion Documentaire
- Rédaction & Documentation Auto
- Analyse de documents
- Workflows personnalisables
"Le potentiel est virtuellement illimité : chaque employé pourra disposer d'une interface sur-mesure, connectée via MCP à nos outils comme Navision."
État de la Recette
Modèle & Stack
Qwen3.5:4b
Ollama + VS Code
Host de Test (POC)
Dell Latitude 7350
Ultra 7 165U • 16 Go RAM
Analyse Bruce
Le POC confirme la viabilité fonctionnelle sur Windows 11 Pro. Une optimisation via hardware dédié est requise pour le passage à l'échelle.
Harnais Hermes Agent by Nous Portal
ICARUS entre dans une nouvelle phase : évaluer Hermes Agent comme harnais agentique principal pour les usages Innov8. L'idée n'est pas de greffer un gadget de plus, mais d'industrialiser une interface capable d'orchestrer modèles, outils, mémoire, commandes et workflows dans un cadre privé, local et pilotable. Nous Portal apporte la couche de routage et d'accès multi-modèles ; en parallèle, le même agent peut être branché sur un endpoint local type Ollama pour un usage 100% souverain.
Pourquoi cette brique compte vraiment
Hermes Agent donne à ICARUS une coque d'exécution plus mature : sélection du modèle, outils intégrés, mémoire locale, structure de configuration, et logique d'agent exploitable au quotidien. Le résultat visé n'est pas un chatbot de démonstration, mais une base unifiée pour faire travailler des assistants métier avec une méthode reproductible.
1
Harnais unique
Local
ou multi-provider
Test
démarrage actif
Lecture architecture
Nous Portal sert de point d'entrée élégant pour tester rapidement des modèles agentiques avancés et comparer les comportements. Le mode local garde la même ergonomie d'agent, mais branche l'inférence sur un serveur OpenAI-compatible interne comme Ollama.
Décision produit
Traiter Hermes comme une base d'expérimentation sérieuse pour ICARUS : prompting structuré, outillage agentique, mémoire, MCP, standardisation des setups et futurs assistants métier. En d'autres termes : arrêter de bricoler des démos isolées et commencer à bâtir une plateforme.
Cas d'usage • Équipe EDI
Analyse des rejets ATGP, rédaction de réponses partenaires, préparation de renvois CSV, checklists de correction, capitalisation des causes racines et reprise rapide d'un incident multi-fichiers.
Cas d'usage • Salesforce & Commerce
Support CRM, qualification des tickets, préparation d'onboarding, aide à la documentation projet, contrôle des imports, synthèse de recette et appui à la production de livrables métiers.
Cas d'usage • Innov8 LAB
Cadrage de projets IA, rédaction de PRD, comparaison de stacks, expérimentation mémoire, génération de pages de présentation et maintien d'une base projet cohérente entre plusieurs chantiers.
Cas d'usage • Fonctions transverses
Préparation de notes, réponses internes, synthèses de réunions, formalisation de procédures et agents spécialisés par périmètre avec règles, ton et outils adaptés.
Installation locale recommandée
Étape 01
Sous Windows, faire tourner Hermes dans WSL2. C'est la voie proprement supportée pour un usage local sérieux.
Étape 02
Installer Hermes Agent dans la distro Linux, puis démarrer un serveur de modèles local compatible OpenAI, typiquement Ollama.
Étape 03
Configurer Hermes sur un Custom endpoint pointant vers l'URL locale du serveur de modèles, puis sélectionner le modèle actif.
# 1. Cote Windows - activer WSL2 wsl --install # 2. Dans Ubuntu / WSL2 sudo apt update sudo apt install -y curl git build-essential # 3. Installer Hermes Agent curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
# 4. Sur le host local avec Ollama ollama pull gemma4:12b ollama pull qwen3.5:27b ollama pull mistral:latest ollama serve # 5. Dans Hermes hermes model # Choisir: Custom endpoint # URL: http://localhost:11434/v1 # Model: qwen3.5:27b (ou gemma4:12b, ou mistral:latest)
# 6. Variante config directe model: default: qwen3.5:27b provider: custom base_url: http://localhost:11434/v1 # Si Hermes tourne dans WSL2 et Ollama sur Windows, # utiliser l'endpoint local expose et, si besoin, # remplacer localhost par l'IP du host Windows.
Profil Gemma 4
Option intéressante pour tester un bon équilibre entre qualité générale, usage multimodal futur et exécution locale raisonnée sur machine solide.
Profil Qwen3.5
Candidat très crédible pour les workflows agentiques et le raisonnement structuré. Bon choix pour le coeur du POC local si la machine suit.
Profil Mistral
Variante utile pour garder une piste européenne, légère à benchmarker et potentiellement plus simple à faire tourner sur certaines machines de test.
Extension Memory Layer
Une nouvelle étude est lancée pour ajouter à ICARUS une couche mémoire persistante inspirée de MemPalace : stockage verbatim, recherche vectorielle locale et restitution du raisonnement complet plutôt qu'un simple résumé amnésique. Oui, c'est un projet déraisonnablement ambitieux. C'est aussi précisément le genre d'idée qui change une démo en plateforme.
Principe clé
Ne rien jeter trop tôt : conserver les échanges et décisions en brut, puis les rendre retrouvables au lieu de laisser un modèle décider arbitrairement de ce qui mérite de survivre.
Bénéfice visé
Donner à Bruce une mémoire projet durable : décisions passées, arbitrages, historiques d'incidents, contexte métier et chaîne de raisonnement réutilisables sans repartir de zéro à chaque session.
Contrainte non négociable
100% local, 0 cloud, gouvernance stricte des données et cloisonnement par espace projet. Une mémoire géniale qui fuite est juste un incident de sécurité très bien rangé.
Architecture à Étudier
Stockage source
Journal verbatim des conversations, décisions, prompts techniques, sorties et pièces de contexte associées.
Indexation locale
Embeddings et recherche sémantique sur machine locale pour retrouver faits, événements, alternatives et découvertes par projet.
Compression utile
Étudier une couche de synthèse compacte lisible par le LLM sans perdre la source de vérité brute derrière.
Cas d'Usage Innov8
- Reprise immédiate d'un dossier EDI ou Salesforce sans reconstituer manuellement le contexte de plusieurs semaines.
- Capitalisation des décisions d'architecture du LAB, des arbitrages techniques et des retours d'expérience projet.
- Mémorisation structurée des clients, interlocuteurs, incidents, workflows et dépendances entre outils internes.
- Préparation de réponses plus cohérentes pour Bruce V1, avec moins de redondance et plus de continuité métier.
96.6%
Score brut revendiqué
100%
Score hybride annoncé
0€
Licence de référence
Lecture Bruce : les chiffres sont spectaculaires mais doivent être traités comme un signal de potentiel, pas comme une vérité sacrée. Ce qui nous intéresse n'est pas le storytelling benchmarké, c'est l'idée d'une mémoire complète, locale et interrogeable, adaptée à nos contraintes de souveraineté.
Décision proposée
Lancer un chantier exploratoire sur une brique mémoire ICARUS : persistance des échanges, indexation vectorielle locale, récupération contextuelle par projet et protocole d'effacement maîtrisé. Autrement dit : donner enfin à l'assistant une mémoire digne de ce nom, sans vendre notre cerveau au cloud.
Optimisation TurboQuant
TurboQuant est une annonce très récente, tombée aujourd'hui, avec un potentiel sérieux pour améliorer l'efficience d'ICARUS via la compression du KV Cache. C'est prometteur, mais encore à tester proprement sur notre stack réelle.
Hypothèse de travail : si les gains annoncés se confirment, TurboQuant pourrait réduire fortement la pression mémoire et accélérer l'inférence locale sur notre POC. Priorité : benchmarker rapidement l'impact réel avant de l'intégrer au récit produit.
≥6×
KV Cache Reduction
Up to 8×
Inference Speedup
0%
Accuracy Loss
Informations
Roadmap Mémoire
Étape 01
Cadrer un modèle de stockage persistant par projet, utilisateur et type de souvenir.
Étape 02
Benchmarker la recherche locale et la compression contextuelle sans perte critique d'information.
Étape 03
Brancher la mémoire sur Bruce V1 avec règles d'effacement, auditabilité et cloisonnement fort.
Pilotage Technique
Vincent Astoul
Architect & Lead Tech