Moteur IA

Votre IA tourne sur votre infrastructure. Vos données ne la quittent jamais.

9 fournisseurs, 20+ modèles, 3 niveaux de souveraineté. Le routeur choisit automatiquement le bon modèle selon la sensibilité de vos données. SkaLean configure et maintient l'infrastructure. Vous utilisez.

9fournisseurs LLM
20+modèles intégrés
3niveaux de souveraineté
0transit non autorisé
Routeur LLM : analyse en temps réel
Requête
Scan PII
Tier sélectionné
Modèle
Latence
Contrat
Dossier patient
Rapport finances
Architecture souveraine

Trois niveaux, un seul routeur

Le routeur LLM choisit automatiquement le bon niveau selon la sensibilité des données. Aucune action requise de l'utilisateur.

Tier 1
API Cloud globales
Fournisseurs : OpenAI · Anthropic · Mistral · Google
Modèles : GPT-4o, Claude Opus 4, Gemini 2.5, Mistral Large
Données : transitent vers les serveurs du fournisseur
Performance : ~50 tokens/s · P50 0.8s
Données non-sensibles, usage général, meilleure qualité
Facturation exacte du fournisseur. Zéro commission.
Tier 2
Cloud souverain regional
Fournisseurs : Azure OpenAI · AWS Bedrock · Vertex AI
Modèles : GPT-4o, Claude Sonnet, Gemini 2.5, hébergés dans votre région
Données : restent dans votre pays. Zéro transfert transfrontalier.
Performance : ~50 tokens/s · même qualité que Tier 1
Données sensibles : conformité RGPD, HIPAA, lois locales
Mêmes prix que Tier 1 · vos données ne sortent pas de votre région
Tier 3
Infrastructure auto-hébergée
Infrastructure : Ollama CPU (inclus tous plans) + vLLM GPU (inclus mise en service)
Modèles : Modèles open-source auto-hébergés : Llama, Qwen, Mistral, modèles médicaux spécialisés
Données : sur votre infrastructure. Zéro transit, zéro cloud externe.
Performance : 35–120 tokens/s selon l'optimisation
PHI, secrets industriels, exigences zéro-cloud
Modèles CPU : 0 $ · modèles GPU : service inclus, tokens facturés à l'usage
4 étapes automatiques

Le routeur choisit, vous n'avez rien à faire

Algorithme de routage en 4 étapes. Aucune configuration manuelle. Repli automatique si le modèle préféré est indisponible.

Algorithme de routage LLM
1
Vérification PII
18 types de données sensibles scannés. Si PII critique détecté → forcer Tier 3 souverain automatiquement.
2
Mode HIPAA
Si client en mode HIPAA → forcer Tier 3. Routage BAA-only obligatoire. Aucun modèle cloud non-certifié.
3
Préférence client
always (tout GPU) / auto (défaut, GPU si PII) / never (API cloud uniquement). Configurable par client et par workflow.
4
Dégradation intelligente
Si GPU chargé (P95 > 10s) → basculer Tier 2. Re-test 60s. Disjoncteur après 5 erreurs consécutives.
Chaîne de repli
TensorRT-LLM vLLM Ollama Erreur (jamais vers US si souverain requis)
Fonctionnalités

Le moteur IA le plus complet

Conçu pour les équipes qui ont des exigences de conformité sans vouloir sacrifier la performance.

9 Fournisseurs, 20+ modèles
OpenAI, Anthropic, Mistral, Google + infrastructure souveraine (Ollama CPU, GPU optimisé). Routage automatique avec repli. Zéro enfermement propriétaire.
Pipeline RAG 6 étapes
Vos documents sont ingérés, segmentés et indexés automatiquement. La recherche combine sémantique et mots-clés, puis classe les résultats par pertinence avant de générer la réponse avec citations.
vLLM + TensorRT-LLM
GPU souverain avec optimisation matérielle. 80–120 tokens/s, 2 à 4x plus rapide que l'inférence standard. API compatible OpenAI. Service inclus dans la mise en service · tokens facturés à l'usage.
NeMo Affinage
Ajustement fin par client. Un cabinet d'avocats affine le modèle sur ses dossiers. Données chiffrées, supprimées après entraînement.
Modèle médical souverain
Modèle médical spécialisé auto-hébergé. Surpasse les modèles généralistes sur les données de santé. Garde-fous médicaux non désactivables. Zéro diagnostic, zéro prescription.
Protection PII 18 types
15 types de données sensibles détectés et masqués. Routage automatique vers l'infrastructure souveraine si données médicales détectées. Re-substitution après réponse.
Pipeline RAG

6 étapes de votre document à la réponse

Cible : moins de 800ms P95. Chaque étape est indépendante, observable et auditable.

1
Ingestion
PDF, DOCX, URLs, Notion
2
Segmentation
Découpage intelligent en blocs cohérents
3
Vectorisation
Modèles d'embedding cloud ou souverains
4
Recherche
Recherche hybride (sémantique + mots-clés)
5
Reranking
Reclassement par pertinence, top 5
6
Génération
Réponse avec citations sources vérifiables
Performance GPU

TensorRT-LLM : 2–4x plus rapide

Inférence souveraine optimisée. TensorRT-LLM accélère les noyaux GPU pour multiplier le débit sans quitter votre infrastructure.

vLLM (GPU)35 t/s · P50 1.2s · 8 req max
35 t/s
TensorRT-LLM100 t/s · P50 0.6s · 18 req max
100 t/s
API GPT-4o (ref)50 t/s · P50 0.8s · 100+ req
50 t/s
ZERO Transit de données
80 GB VRAM GPU
99.5% SLA GPU Enterprise
Auto Repli automatique
Pourquoi SkaLean

Aucun concurrent ne combine les 3 tiers

OpenAI, Azure et Mistral proposent chacun une pièce du puzzle. SkaLean est le seul moteur IA qui les intègre tous, avec routage automatique, GPU souverain, RAG natif et zéro commission.

API seule
Cloud régional
Auto-hébergé
Tout-en-un
Critère OpenAI / Anthropic API Azure OpenAI · Bedrock · Vertex vLLM / Ollama DIY SkaLean Moteur IA
Souveraineté des données Serveurs US Région au choix Sur votre infra 3 tiers automatiques
Nombre de fournisseurs / modèles 1 fournisseur 1-2 fournisseurs Modèles libres seulement 9 fournisseurs · 20+ modèles
Routage automatique PII 18 types · score de sensibilité
Protection PII avant envoi LLM Pseudonymisation + re-substitution
TensorRT-LLM (accélération 2-4x) DIY complexe Natif · aucun AIaaS concurrent
Affinage LoRA par client (NeMo) Affinage OpenAI (coûteux) Affinage Azure (coûteux) DIY · aucune isolation client NeMo · jeu de données chiffré · isolé
Modèle médical souverain Surpasse les modèles généralistes sur données de santé
RAG 6 étapes intégré DIY · pas de pipeline clé-en-main Hybride + RRF + reclassement + citations
Disjoncteur + repli automatique TRT → vLLM → Ollama · 5 erreurs
OWASP LLM Top 10 Basique Partiel 9/10 · non désactivable
Conformité HIPAA activable BAA disponible (Azure, AWS) Manuel à configurer Conformité HIPAA activable par client
Commission sur tokens Tarif public Tarif public + surcoût région Coût infra DIY 0 % Tarif fournisseur exact
Service géré Libre-service Libre-service Tout à configurer Construction · maintenance · expertise SkaLean
25+ acteurs analysés : aucun ne combine les 3
Botpress et Voiceflow font les agents mais pas l'automatisation. Les outils tiers font l'automatisation mais pas les agents. ChatGPT Team et Copilot font l'espace de travail mais sans souveraineté réelle. SkaLean est le seul moteur IA qui combine routage multi-fournisseur, GPU souverain, RAG natif et service géré dans une seule plateforme.
Conformité & Souveraineté

Vos données ne quittent jamais votre région

Infrastructure locale · conformité réglementaire native · RGPD · CCPA · HIPAA activable par locataire. SkaLean configure et maintient votre infrastructure souveraine.

13
mécanismes RGPD / CCPA
0
transit de données hors région
100%
configurable par locataire
L'écosystème SkaLean

Le Moteur IA alimente tout l'écosystème

Le Moteur IA souverain est le cerveau qui propulse Studio IA, Automatisation IA et les Assistant IA, hébergé localement, conforme à votre réglementation, zéro dépendance cloud imposée.

Tarification transparente

Vous payez les tokens. Rien de plus.

SkaLean ne prend aucune commission sur les appels LLM. Vous êtes facturés exactement au tarif publié par le fournisseur.

0 % de commission sur les tokens LLM
Nous facturons exactement ce que le fournisseur LLM charge, sans majoration, sans frais cachés. Le déploiement vLLM et le développement de LLM personnalisé sont inclus dans les frais de mise en service.
Fournisseur Modèle Entrée / 1K tokens Sortie / 1K tokens Notes
OpenAI gpt-4o 0,0025 $ 0,01 $ 128K contexte · Tool calling
OpenAI gpt-4o-mini 0,00015 $ 0,0006 $ Ultra rapide · économique
OpenAI gpt-4.1 / gpt-4.1-mini 0,002 $ / 0,0001 $ 0,008 $ / 0,0004 $ Dernière génération
Anthropic claude-opus-4 0,015 $ 0,075 $ 200K contexte · raisonnement
Anthropic claude-sonnet-4 0,003 $ 0,015 $ Équilibre performance/coût
Anthropic claude-haiku-4.5 0,00025 $ 0,00125 $ Très rapide · faible coût
Mistral mistral-large-2 0,002 $ 0,006 $ Hébergement européen (Paris)
Mistral mistral-small-3.1 0,0002 $ 0,0006 $ Modèle européen compact
Google gemini-2.5-pro 0,00125 $ 0,005 $ Très long contexte
Google gemini-2.5-flash 0,00015 $ 0,0006 $ Ultra rapide · diffusion en continu
Prix en USD par 1 000 tokens. Facturés directement au tarif du fournisseur, sans surcoût.
La vectorisation est incluse dans le plan : 0 $ supplémentaire.
Plateforme Modèle Entrée / 1K tokens Sortie / 1K tokens Souveraineté
Azure OpenAI gpt-4o / gpt-4o-mini 0,0025 $ / 0,00015 $ 0,01 $ / 0,0006 $ Région souveraine de votre choix
Azure OpenAI gpt-4.1 / gpt-4.1-mini 0,002 $ / 0,0001 $ 0,008 $ / 0,0004 $ Données restent dans votre pays
AWS Bedrock Claude Opus 4 / Sonnet 4 0,015 $ / 0,003 $ 0,075 $ / 0,015 $ Région Bedrock souveraine
AWS Bedrock Llama 3.1 70B / 8B 0,00065 $ / 0,0003 $ 0,00085 $ / 0,0006 $ Modèle ouvert via Bedrock
Vertex AI Gemini 2.5 Pro / Flash 0,00125 $ / 0,00015 $ 0,005 $ / 0,0006 $ Région Vertex souveraine
Vertex AI Claude Sonnet 4 (via Vertex) 0,003 $ 0,015 $ Anthropic via Google Model Garden
Mêmes prix que le Tier 1 ; vos données restent dans votre région sans aucun frais supplémentaire.
La région souveraine est choisie selon votre pays et vos exigences réglementaires (RGPD, HIPAA, lois locales).
Infrastructure Modèles Entrée / 1K tokens Sortie / 1K tokens Conditions
Ollama CPU Llama, Mistral, Qwen et modèles open-source 0 $ 0 $ Inclus dans tous les plans
vLLM GPU Llama 70B+, Qwen 72B, modèles médicaux spécialisés Facturés à l'usage Facturés à l'usage Service configuré par SkaLean · inclus mise en service
LLM custom Affinage NeMo LoRA sur vos données inclus mise en service inclus mise en service Plan Enterprise
Ollama CPU est inclus dans tous les plans SkaLean : aucun frais de token, aucune limite de volume.
Le déploiement vLLM GPU et le développement LLM personnalisé sont inclus dans les frais de mise en service. Les tokens vLLM à l'exécution sont facturés à l'usage selon votre consommation réelle.
Zéro transit de données. Vos données ne quittent jamais votre infrastructure.
Prêt pour l'IA souveraine ?

Votre infrastructure IA, gérée par SkaLean.

9 fournisseurs, 20+ modèles, 3 niveaux de souveraineté. Déploiement en 5 à 20 jours.