ICARUS
Projet Alpha • Beta 0.1

Projet ICARUS

Innov8 Custom AI Response Unified System

Architecture d'intelligence artificielle souveraine. L'alternative locale et privée aux solutions Cloud pour le groupe Innov8.

Live Demo

La Genèse

ICARUS est né d'un constat simple : l'IA générative est devenue un outil de productivité indispensable, mais l'externalisation de nos données métier sur des serveurs tiers représente un risque de souveraineté inacceptable.

La Vision

Nous ne construisons pas juste un chatbot. Nous architecturons un système capable de comprendre et d'analyser nos flux internes (EDI, rapports, documentation) sans jamais franchir les frontières du réseau Innov8.

Mise à jour • 25/03/2026

Capacités Validées

Malgré les contraintes de vitesse actuelles, le POC a démontré une polyvalence exceptionnelle. Tout ce qui suit est opérationnel en environnement local :

Intelligence Agentique

  • Personnalité "Bruce" via rules.md
  • Skills avancés en Code & Git
  • Pilotage de Projet

Gestion Documentaire

  • Rédaction & Documentation Auto
  • Analyse de documents
  • Workflows personnalisables

"Le potentiel est virtuellement illimité : chaque employé pourra disposer d'une interface sur-mesure, connectée via MCP à nos outils comme Navision."

Mesures POC • 25/03/2026

État de la Recette

Modèle & Stack

Qwen3.5:4b
Ollama + VS Code

Host de Test (POC)

Dell Latitude 7350
Ultra 7 165U • 16 Go RAM

CPU Load 57%
RAM Usage 91%
GPU 24%

Analyse Bruce

Le POC confirme la viabilité fonctionnelle sur Windows 11 Pro. Une optimisation via hardware dédié est requise pour le passage à l'échelle.

Nouveau chantier • Phase de test en démarrage
Ajout • 15/06/2026

Harnais Hermes Agent by Nous Portal

ICARUS entre dans une nouvelle phase : évaluer Hermes Agent comme harnais agentique principal pour les usages Innov8. L'idée n'est pas de greffer un gadget de plus, mais d'industrialiser une interface capable d'orchestrer modèles, outils, mémoire, commandes et workflows dans un cadre privé, local et pilotable. Nous Portal apporte la couche de routage et d'accès multi-modèles ; en parallèle, le même agent peut être branché sur un endpoint local type Ollama pour un usage 100% souverain.

Agentic Runtime Nous Portal Local Endpoint

Pourquoi cette brique compte vraiment

Hermes Agent donne à ICARUS une coque d'exécution plus mature : sélection du modèle, outils intégrés, mémoire locale, structure de configuration, et logique d'agent exploitable au quotidien. Le résultat visé n'est pas un chatbot de démonstration, mais une base unifiée pour faire travailler des assistants métier avec une méthode reproductible.

1

Harnais unique

Local

ou multi-provider

Test

démarrage actif

Lecture architecture

Nous Portal sert de point d'entrée élégant pour tester rapidement des modèles agentiques avancés et comparer les comportements. Le mode local garde la même ergonomie d'agent, mais branche l'inférence sur un serveur OpenAI-compatible interne comme Ollama.

Décision produit

Traiter Hermes comme une base d'expérimentation sérieuse pour ICARUS : prompting structuré, outillage agentique, mémoire, MCP, standardisation des setups et futurs assistants métier. En d'autres termes : arrêter de bricoler des démos isolées et commencer à bâtir une plateforme.

Cas d'usage • Équipe EDI

Analyse des rejets ATGP, rédaction de réponses partenaires, préparation de renvois CSV, checklists de correction, capitalisation des causes racines et reprise rapide d'un incident multi-fichiers.

Cas d'usage • Salesforce & Commerce

Support CRM, qualification des tickets, préparation d'onboarding, aide à la documentation projet, contrôle des imports, synthèse de recette et appui à la production de livrables métiers.

Cas d'usage • Innov8 LAB

Cadrage de projets IA, rédaction de PRD, comparaison de stacks, expérimentation mémoire, génération de pages de présentation et maintien d'une base projet cohérente entre plusieurs chantiers.

Cas d'usage • Fonctions transverses

Préparation de notes, réponses internes, synthèses de réunions, formalisation de procédures et agents spécialisés par périmètre avec règles, ton et outils adaptés.

Installation locale recommandée

Étape 01

Sous Windows, faire tourner Hermes dans WSL2. C'est la voie proprement supportée pour un usage local sérieux.

Étape 02

Installer Hermes Agent dans la distro Linux, puis démarrer un serveur de modèles local compatible OpenAI, typiquement Ollama.

Étape 03

Configurer Hermes sur un Custom endpoint pointant vers l'URL locale du serveur de modèles, puis sélectionner le modèle actif.

# 1. Cote Windows - activer WSL2
wsl --install

# 2. Dans Ubuntu / WSL2
sudo apt update
sudo apt install -y curl git build-essential

# 3. Installer Hermes Agent
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
# 4. Sur le host local avec Ollama
ollama pull gemma4:12b
ollama pull qwen3.5:27b
ollama pull mistral:latest
ollama serve

# 5. Dans Hermes
hermes model
# Choisir: Custom endpoint
# URL: http://localhost:11434/v1
# Model: qwen3.5:27b (ou gemma4:12b, ou mistral:latest)
# 6. Variante config directe
model:
  default: qwen3.5:27b
  provider: custom
  base_url: http://localhost:11434/v1

# Si Hermes tourne dans WSL2 et Ollama sur Windows,
# utiliser l'endpoint local expose et, si besoin,
# remplacer localhost par l'IP du host Windows.

Profil Gemma 4

Option intéressante pour tester un bon équilibre entre qualité générale, usage multimodal futur et exécution locale raisonnée sur machine solide.

Profil Qwen3.5

Candidat très crédible pour les workflows agentiques et le raisonnement structuré. Bon choix pour le coeur du POC local si la machine suit.

Profil Mistral

Variante utile pour garder une piste européenne, légère à benchmarker et potentiellement plus simple à faire tourner sur certaines machines de test.

Piste R&D • Mémoire Longue Durée
Ajout • 25/03/2026

Extension Memory Layer

Une nouvelle étude est lancée pour ajouter à ICARUS une couche mémoire persistante inspirée de MemPalace : stockage verbatim, recherche vectorielle locale et restitution du raisonnement complet plutôt qu'un simple résumé amnésique. Oui, c'est un projet déraisonnablement ambitieux. C'est aussi précisément le genre d'idée qui change une démo en plateforme.

Principe clé

Ne rien jeter trop tôt : conserver les échanges et décisions en brut, puis les rendre retrouvables au lieu de laisser un modèle décider arbitrairement de ce qui mérite de survivre.

Bénéfice visé

Donner à Bruce une mémoire projet durable : décisions passées, arbitrages, historiques d'incidents, contexte métier et chaîne de raisonnement réutilisables sans repartir de zéro à chaque session.

Contrainte non négociable

100% local, 0 cloud, gouvernance stricte des données et cloisonnement par espace projet. Une mémoire géniale qui fuite est juste un incident de sécurité très bien rangé.

Architecture à Étudier

Stockage source

Journal verbatim des conversations, décisions, prompts techniques, sorties et pièces de contexte associées.

Indexation locale

Embeddings et recherche sémantique sur machine locale pour retrouver faits, événements, alternatives et découvertes par projet.

Compression utile

Étudier une couche de synthèse compacte lisible par le LLM sans perdre la source de vérité brute derrière.

Cas d'Usage Innov8

  • Reprise immédiate d'un dossier EDI ou Salesforce sans reconstituer manuellement le contexte de plusieurs semaines.
  • Capitalisation des décisions d'architecture du LAB, des arbitrages techniques et des retours d'expérience projet.
  • Mémorisation structurée des clients, interlocuteurs, incidents, workflows et dépendances entre outils internes.
  • Préparation de réponses plus cohérentes pour Bruce V1, avec moins de redondance et plus de continuité métier.

96.6%

Score brut revendiqué

100%

Score hybride annoncé

0€

Licence de référence

Lecture Bruce : les chiffres sont spectaculaires mais doivent être traités comme un signal de potentiel, pas comme une vérité sacrée. Ce qui nous intéresse n'est pas le storytelling benchmarké, c'est l'idée d'une mémoire complète, locale et interrogeable, adaptée à nos contraintes de souveraineté.

Décision proposée

Lancer un chantier exploratoire sur une brique mémoire ICARUS : persistance des échanges, indexation vectorielle locale, récupération contextuelle par projet et protocole d'effacement maîtrisé. Autrement dit : donner enfin à l'assistant une mémoire digne de ce nom, sans vendre notre cerveau au cloud.

News du jour • 25/03/2026
Ajout • 25/03/2026

Optimisation TurboQuant

TurboQuant est une annonce très récente, tombée aujourd'hui, avec un potentiel sérieux pour améliorer l'efficience d'ICARUS via la compression du KV Cache. C'est prometteur, mais encore à tester proprement sur notre stack réelle.

Hypothèse de travail : si les gains annoncés se confirment, TurboQuant pourrait réduire fortement la pression mémoire et accélérer l'inférence locale sur notre POC. Priorité : benchmarker rapidement l'impact réel avant de l'intégrer au récit produit.

≥6×

KV Cache Reduction

Up to 8×

Inference Speedup

0%

Accuracy Loss

Informations

Confidentialité 100% Offline
Coût licences 0€
Status Optimisation
Hermes Agent Tests en démarrage

Roadmap Mémoire

Étape 01

Cadrer un modèle de stockage persistant par projet, utilisateur et type de souvenir.

Étape 02

Benchmarker la recherche locale et la compression contextuelle sans perte critique d'information.

Étape 03

Brancher la mémoire sur Bruce V1 avec règles d'effacement, auditabilité et cloisonnement fort.

Pilotage Technique

VA

Vincent Astoul

Architect & Lead Tech