Moteur IA

VotreIAtournesurvotreinfrastructure.Vosdonnéesnelaquittentjamais.

9 fournisseurs, 20+ modèles, 3 niveaux de souveraineté. Le routeur choisit automatiquement le bon modèle selon la sensibilité de vos données. SkaLean configure et maintient l’infrastructure. Vous utilisez.

9fournisseurs LLM

20+modèles intégrés

3niveaux de souveraineté

0transit non autorisé

Voir les plans Voir les fonctionnalités →

Routeur LLM : analyse en temps réel

Requête —

Scan PII —

Tier sélectionné —

Modèle —

Latence —

Contrat

Dossier patient

Rapport finances

Architecture souveraine

Trois niveaux, un seul routeur

Le routeur LLM choisit automatiquement le bon niveau selon la sensibilité des données. Aucune action requise de l’utilisateur.

Compatible avec 20+ modèles IA — Claude, GPT, Gemini

Tier 1

API Cloud globales

Fournisseurs : OpenAI · Anthropic · Mistral · Google

Modèles : GPT-4o, Claude Opus 4, Gemini 2.5, Mistral Large

Données : transitent vers les serveurs du fournisseur

Performance : ~50 tokens/s · P50 0.8s

Données non-sensibles, usage général, meilleure qualité

Facturation exacte du fournisseur. Zéro commission.

Tier 2

Cloud souverain regional

Fournisseurs : Azure OpenAI · AWS Bedrock · Vertex AI

Modèles : GPT-4o, Claude Sonnet, Gemini 2.5, hébergés dans votre région

Données : restent dans votre pays. Zéro transfert transfrontalier.

Performance : ~50 tokens/s · même qualité que Tier 1

Données sensibles : conformité RGPD, HIPAA, lois locales

Mêmes prix que Tier 1 · vos données ne sortent pas de votre région

Tier 3

Infrastructure auto-hébergée

Infrastructure : Inférence CPU souveraine (inclus tous plans) + GPU haute performance (inclus mise en service)

Modèles : Modèles open-source auto-hébergés : Llama, Qwen, Mistral, modèles médicaux spécialisés

Données : sur votre infrastructure. Zéro transit, zéro cloud externe.

Performance : 35–120 tokens/s selon l’optimisation

PHI, secrets industriels, exigences zéro-cloud

Modèles CPU : 0 $ · modèles GPU : service inclus, tokens facturés à l’usage

Niveaux de souveraineté des données — hébergement local vs cloud

4 étapes automatiques

Le routeur choisit, vous n’avez rien à faire

Algorithme de routage en 4 étapes. Aucune configuration manuelle. Repli automatique si le modèle préféré est indisponible.

Vérification PII

15 types de données sensibles scannés. Si PII critique détecté → forcer Tier 3 souverain automatiquement.

Mode HIPAA

Si client en mode HIPAA → forcer Tier 3. Routage BAA-only obligatoire. Aucun modèle cloud non-certifié.

Préférence client

always (tout GPU) / auto (défaut, GPU si PII) / never (API cloud uniquement). Configurable par client et par workflow.

Dégradation intelligente

Si GPU chargé (P95 > 10s) → basculer Tier 2. Re-test 60s. Disjoncteur après 5 erreurs consécutives.

GPU haute performance → GPU standard → CPU souverain. Jamais vers US si souverain requis.

Fonctionnalités

Le moteur IA le plus complet

Conçu pour les équipes qui ont des exigences de conformité sans vouloir sacrifier la performance.

9 Fournisseurs, 20+ modèles

OpenAI, Anthropic, Mistral, Google + infrastructure souveraine auto-hébergée (CPU et GPU). Routage automatique avec repli. Zéro enfermement propriétaire.

Recherche documentaire intelligente

Vos documents sont ingérés, segmentés et indexés automatiquement. La recherche combine sémantique et mots-clés, puis classe les résultats par pertinence avant de générer la réponse avec citations.

GPU souverain haute performance

Infrastructure GPU sur votre territoire avec optimisation matérielle. 2 à 4 fois plus rapide que l’inférence standard. API compatible avec les standards du marché. Service inclus dans la mise en service · tokens facturés à l’usage.

Affinage sectoriel

Ajustement du modèle sur vos données métier. Un cabinet d’avocats affine le modèle sur ses dossiers. Données chiffrées, supprimées après entraînement.

Modèle médical souverain

Modèle médical spécialisé auto-hébergé. Surpasse les modèles généralistes sur les données de santé. Garde-fous médicaux non désactivables. Zéro diagnostic, zéro prescription.

Protection PII 15 types

15 types de données sensibles détectés et masqués. Routage automatique vers l’infrastructure souveraine si données médicales détectées. Re-substitution après réponse.

Pipeline RAG

6 étapes de votre document à la réponse

Cible : moins de 800ms P95. Chaque étape est indépendante, observable et auditable.

Ingestion

PDF, DOCX, URLs, Notion

Segmentation

Découpage intelligent en blocs cohérents

Vectorisation

Modèles d’embedding cloud ou souverains

Recherche

Recherche hybride (sémantique + mots-clés)

Reranking

Reclassement par pertinence, top 5

Génération

Réponse avec citations sources vérifiables

Performance GPU

GPU souverain : 2–4x plus rapide

Inférence souveraine optimisée sur GPU. Notre moteur accélère le débit pour multiplier les performances sans quitter votre infrastructure.

GPU standard35 t/s · P50 1.2s · 8 req max

35 t/s

GPU haute performance100 t/s · P50 0.6s · 18 req max

100 t/s

API GPT-4o (ref)50 t/s · P50 0.8s · 100+ req

50 t/s

ZERO Transit de données

80 GB VRAM GPU

99.5% SLA GPU Enterprise

Auto Repli automatique

Pourquoi SkaLean

Aucun concurrent ne combine les 3 tiers

OpenAI, Azure et Mistral proposent chacun une pièce du puzzle. SkaLean est le seul moteur IA qui les intègre tous, avec routage automatique, GPU souverain, RAG natif et zéro commission.

API seule

Cloud régional

Auto-hébergé

Tout-en-un

Critère	OpenAI / Anthropic API	Azure OpenAI · Bedrock · Vertex	Open-source DIY	SkaLean Moteur IA
Souveraineté des données	— Serveurs US	✓ Région au choix	✓ Sur votre infra	✓ 3 tiers automatiques
Nombre de fournisseurs / modèles	1 fournisseur	1-2 fournisseurs	Modèles libres seulement	✓ 9 fournisseurs · 20+ modèles
Routage automatique PII	—	—	—	✓ 15 types · score de sensibilité
Protection PII avant envoi LLM	—	—	—	✓ Pseudonymisation + re-substitution
TensorRT-LLM (accélération 2-4x)	—	—	DIY complexe	✓ Natif · aucun AIaaS concurrent
Affinage LoRA par client (NeMo)	Affinage OpenAI (coûteux)	Affinage Azure (coûteux)	DIY · aucune isolation client	✓ NeMo · jeu de données chiffré · isolé
Modèle médical souverain	—	—	—	✓ Surpasse les modèles généralistes sur données de santé
RAG 6 étapes intégré	—	—	DIY · pas de pipeline clé-en-main	✓ Hybride + RRF + reclassement + citations
Disjoncteur + repli automatique	—	—	—	✓ Repli automatique en cascade · 5 tentatives
OWASP LLM Top 10	Basique	Partiel	—	✓ 10/10 · non désactivable
Conformité HIPAA activable	—	✓ BAA disponible (Azure, AWS)	— Manuel à configurer	✓ Conformité HIPAA activable par client
Commission sur tokens	Tarif public	Tarif public + surcoût région	Coût infra DIY	0% Tarif fournisseur exact
Service géré	— Libre-service	— Libre-service	— Tout à configurer	✓ Construction · maintenance · expertise SkaLean

25+ acteurs analysés : aucun ne combine les 3

Botpress et Voiceflow font les agents mais pas l’automatisation. Les outils tiers font l’automatisation mais pas les agents. ChatGPT Team et Copilot font l’espace de travail mais sans souveraineté réelle. SkaLean est le seul moteur IA qui combine routage multi-fournisseur, GPU souverain, RAG natif et service géré dans une seule plateforme.

Conformité & Souveraineté

Vos données ne quittent jamais votre région

Infrastructure locale · conformité réglementaire native · RGPD · CCPA · HIPAA activable par locataire. SkaLean configure et maintient votre infrastructure souveraine.

mécanismes RGPD / CCPA

transit de données hors région

100%

configurable par locataire

Pourquoi pas ChatGPT ?

Ce que ChatGPT ne peut pas faire pour votre PME

ChatGPT est un outil générique. Studio IA SkaLean est un expert de votre secteur, hébergé chez vous.

Ce qui compte pour votre PME	ChatGPT / Microsoft Copilot	Studio IA SkaLean
Répond depuis...	Internet public (risque de contenu inexact)	Vos documents uniquement
Vos données envoyées aux États-Unis ?	Oui — serveurs OpenAI / Microsoft	Jamais — infrastructure souveraine
Modèle entraîné sur votre secteur ?	Non — modèle généraliste	Oui — fine-tuning LoRA sectoriel
Conformité RGPD / HIPAA native ?	Partielle — dépend du contrat MSA	Oui — certifiée et auditable
Traces et audit des requêtes ?	Non — boite noire	Oui — 100 % traçable
Isolation de vos données des autres clients ?	Non — mutualisé	Oui — conteneur dédié par client
Intégré à vos outils existants ?	Limité (API manuelle)	Oui — 200+ connecteurs natifs

Questions fréquentes

Pourquoi dois-je choisir un modèle LLM ? Quelle est la différence entre GPT-4o, Claude et Mistral ?

Chaque modèle a des points forts différents, comme différents médecins spécialistes. GPT-4o (OpenAI) excelle dans les tâches polyvalentes et le raisonnement complexe. Claude (Anthropic) est reconnu pour ses réponses nuancées et sa prudence dans les sujets sensibles — idéal pour le juridique et la conformité. Mistral est un modèle européen plus léger, optimisé pour le français, moins coûteux en calcul. La bonne nouvelle : vous n'avez pas à choisir manuellement — le routeur LLM de SkaLean sélectionne automatiquement le modèle optimal selon le type de tâche, la langue, les contraintes de conformité, et le coût cible.

Qu'est-ce que la souveraineté GPU et pourquoi est-ce important pour mon entreprise ?

L'inférence GPU est le calcul effectué pour générer chaque réponse IA. Normalement, avec ChatGPT, ce calcul se fait sur les serveurs d'OpenAI aux États-Unis, soumis au Cloud Act américain — vos données transitent vers un pays étranger. La souveraineté GPU signifie que SkaLean effectue ce calcul sur des GPU physiquement dans votre pays. Pour un cabinet médical québécois (Loi 25), un bureau d'avocats (secret professionnel), ou une institution financière (OSFI), c'est une exigence légale. Si un audit vous demande "où vos données sont-elles traitées ?", la réponse est "sur serveur physique dans votre ville".

Comment le routeur LLM choisit-il automatiquement le bon modèle pour chaque requête ?

Le routeur LLM évalue chaque requête sur 4 critères : (1) Présence de données personnelles — si la requête contient des données sensibles, seuls les modèles souverains sont autorisés, (2) Conformité HIPAA — si le compte est en mode HIPAA, les modèles cloud américains sont exclus, (3) Préférence client — si vous avez défini un modèle préféré pour un cas d'usage spécifique, il est prioritaire, (4) Dégradation intelligente — si le modèle préféré est indisponible, basculement automatique vers le meilleur alternatif sans interruption de service. Ce système élimine le vendor lock-in.

Puis-je utiliser un modèle fine-tuné sur mes données métier spécifiques ?

Oui, disponible sur les plans Entreprise. Le fine-tuning LoRA (Low-Rank Adaptation) ajuste un modèle de base (Llama 3, Mistral) sur vos données spécifiques en 2 à 5 jours. Cas d'usage : cabinet dentaire qui fine-tune sur sa nomenclature de codes RAMQ, cabinet comptable sur la réglementation fiscale québécoise spécifique, clinique vétérinaire avec sa terminologie animale. Résultat : précision 15-30% supérieure sur vos tâches spécifiques. La plupart des clients n'en ont pas besoin — le pipeline RAG suffit — mais c'est disponible si votre vocabulaire est très spécialisé.

Les modèles sont-ils aussi performants en français qu'en anglais ?

GPT-4o et Claude atteignent des performances très proches en français et en anglais (différence de 5-10% selon les benchmarks). Mistral a été spécifiquement optimisé pour le français et surpasse souvent GPT-4 sur les tâches de rédaction française. Pour l'arabe, les modèles disponibles supportent l'arabe standard moderne (MSA) avec bonne qualité. Les dialectes régionaux (Darija, Levant, Golfe) sont supportés pour les tâches conversationnelles simples. Lors de votre démonstration, SkaLean vous facilite la comparaison côte à côte des modèles sur vos cas d'usage réels.

Comment les mises à jour des modèles LLM sont-elles gérées sans perturber mon service ?

SkaLean gère les mises à jour en mode "blue-green" : la nouvelle version est testée en parallèle pendant 72 heures avant de remplacer l'ancienne. Si les métriques de qualité régressent sur vos cas d'usage, le basculement est annulé automatiquement. Vous êtes notifié 7 jours avant toute mise à jour majeure. Pour les plans Entreprise, un "modèle épinglé" (version fixe) peut être configuré pour éviter tout changement non planifié — contrairement aux APIs OpenAI/Anthropic directes où une mise à jour peut changer votre application du jour au lendemain.

L’écosystème SkaLean

Le Moteur IA alimente tout l’écosystème

Le Moteur IA souverain est le cerveau qui propulse Studio IA, Automatisation IA et les Assistant IA, hébergé localement, conforme à votre réglementation, zéro dépendance cloud imposée.

Studio IA

Documents · RAG · Collaboration temps réel

Automatisation IA

200+ connecteurs · workflows intelligents

Assistant IA

10 canaux · voix · boucle ReAct

Tarification transparente

Vous payez les tokens. Rien de plus.

SkaLean ne prend aucune commission sur les appels LLM. Vous êtes facturés exactement au tarif publié par le fournisseur.

0 % de commission sur les tokens LLM

Nous facturons exactement ce que le fournisseur LLM charge, sans majoration, sans frais cachés. Le déploiement d’inférence personnalisé et le développement de LLM sur mesure sont inclus dans les frais de mise en service.

Fournisseur	Modèle	Entrée / 1K tokens	Sortie / 1K tokens	Notes
OpenAI	gpt-4o	0,0025 $	0,01 $	128K contexte · Tool calling
OpenAI	gpt-4o-mini	0,00015 $	0,0006 $	Ultra rapide · économique
OpenAI	gpt-4.1 / gpt-4.1-mini	0,002 $ / 0,0001 $	0,008 $ / 0,0004 $	Dernière génération
Anthropic	claude-opus-4	0,015 $	0,075 $	200K contexte · raisonnement
Anthropic	claude-sonnet-4	0,003 $	0,015 $	Équilibre performance/coût
Anthropic	claude-haiku-4.5	0,00025 $	0,00125 $	Très rapide · faible coût
Mistral	mistral-large-2	0,002 $	0,006 $	Hébergement européen (Paris)
Mistral	mistral-small-3.1	0,0002 $	0,0006 $	Modèle européen compact
Google	gemini-2.5-pro	0,00125 $	0,005 $	Très long contexte
Google	gemini-2.5-flash	0,00015 $	0,0006 $	Ultra rapide · diffusion en continu

Prix en USD par 1 000 tokens. Facturés directement au tarif du fournisseur, sans surcoût.

La vectorisation est incluse dans le plan : 0 $ supplémentaire.

Plateforme	Modèle	Entrée / 1K tokens	Sortie / 1K tokens	Souveraineté
Azure OpenAI	gpt-4o / gpt-4o-mini	0,0025 $ / 0,00015 $	0,01 $ / 0,0006 $	Région souveraine de votre choix
Azure OpenAI	gpt-4.1 / gpt-4.1-mini	0,002 $ / 0,0001 $	0,008 $ / 0,0004 $	Données restent dans votre pays
AWS Bedrock	Claude Opus 4 / Sonnet 4	0,015 $ / 0,003 $	0,075 $ / 0,015 $	Région Bedrock souveraine
AWS Bedrock	Llama 3.1 70B / 8B	0,00065 $ / 0,0003 $	0,00085 $ / 0,0006 $	Modèle ouvert via Bedrock
Vertex AI	Gemini 2.5 Pro / Flash	0,00125 $ / 0,00015 $	0,005 $ / 0,0006 $	Région Vertex souveraine
Vertex AI	Claude Sonnet 4 (via Vertex)	0,003 $	0,015 $	Anthropic via Google Model Garden

Mêmes prix que le Tier 1 ; vos données restent dans votre région sans aucun frais supplémentaire.

La région souveraine est choisie selon votre pays et vos exigences réglementaires (RGPD, HIPAA, lois locales).

Infrastructure	Modèles	Entrée / 1K tokens	Sortie / 1K tokens	Conditions
Ollama CPU	Llama, Mistral, Qwen et modèles open-source	0 $	0 $	Inclus dans tous les plans
Inférence GPU	Llama 70B+, Qwen 72B, modèles médicaux spécialisés	Facturés à l’usage	Facturés à l’usage	Service configuré par SkaLean · inclus mise en service
LLM custom	Affinage NeMo LoRA sur vos données	inclus mise en service	inclus mise en service	Plan Enterprise

Ollama CPU est inclus dans tous les plans SkaLean : aucun frais de token, aucune limite de volume.

Le déploiement d’inférence GPU et le développement LLM personnalisé sont inclus dans les frais de mise en service. Les tokens d’inférence à l’exécution sont facturés à l’usage selon votre consommation réelle.

Zéro transit de données. Vos données ne quittent jamais votre environnement isolé.

Prêt pour l’IA souveraine ?

Votre infrastructure IA, gérée par SkaLean.

9 fournisseurs, 20+ modèles, 3 niveaux de souveraineté. Déploiement en 5 à 20 jours.

Planifier une démonstration Voir les plans et tarifs →