Le contexte
Tout DPO d'une ETI européenne a la même intuition : il y a probablement, quelque part dans SharePoint, un fichier Excel avec 18 000 emails de prospects qualifiés sans base légale claire. Une vingtaine de contrats fournisseurs sans clause DPA. Des CV de candidats refusés stockés depuis 2017 sans politique de rétention.
Le problème n'est pas que ces violations soient invisibles — elles sont trouvables, mais à un coût d'inspection humaine prohibitif. Un audit RGPD complet d'un SharePoint de taille moyenne (300-500 GB) coûte typiquement 18 à 35 jours/avocat-DPO, soit 25-50 k€. Et le résultat n'est valable que jusqu'à la prochaine sync de fichiers — c'est-à-dire 6 heures.
Conséquence pratique : la plupart des organisations attendent une inspection CNIL pour découvrir leurs propres violations, ou vivent avec un risque non quantifié inscrit comme « risque résiduel acceptable » dans la cartographie.
Le DPO d'une ETI typique passe 35 à 50 % de son temps à chasser des violations connues par d'autres équipes mais jamais formalisées. LMbox transforme cette chasse en flux automatique — le DPO reprend la main sur la stratégie de conformité.
Le mécanisme LMbox
Le module Compliance (livré sur demande) tourne en continu sur la Box :
- Le connecteur SharePoint (au minimum, Drive + Confluence si présents) sync incrémentalement toutes les 30 minutes.
- Le tier
medium(Qwen 2.5 Coder 32B local) classe chaque nouveau document selon une grille de 14 patterns RGPD : PII en clair, absence de clause DPA dans un contrat fournisseur, document plus ancien que la rétention déclarée par catégorie, formulaire de consentement périmé, fichiers nominatifs sans base légale taggée, exports CRM non datés, etc. - Pour les cas ambigus (ex : « cette annexe est-elle un avenant ou un nouveau contrat ? »), escalade vers le tier
frontier(Mistral Large 2 local pour les clients souveraineté pure, ou Bedrock Sonnet via Bedrock EU sinon). - Chaque violation détectée crée automatiquement un ticket Jira assigné au data owner du dossier (via le mapping AD-groupes-folder déjà existant côté SharePoint).
- Le DPO accède à un tableau de bord temps réel : violations ouvertes par catégorie, ancienneté moyenne, propriétaire le plus défaillant, courbe de remédiation.
L'audit log signe chaque détection (timestamp + classifier + score + extrait du document) — utilisable directement dans une AIPD, un rapport de conformité ou pour répondre à une mise en demeure CNIL.
Le calcul de ROI
Hypothèses transparentes pour une ETI de 300 personnes / 500 GB SharePoint indexé :
| Poste | Avant LMbox | Avec LMbox |
|---|---|---|
| Audit RGPD ponctuel annuel par cabinet externe | 25-50 k€ | Inclus dans la Box |
| Latence détection violation | 6-12 mois | < 6 heures |
| Risque amende CNIL (proba 5 %, amende moyenne 200 k€) | 10 k€ provision/an | Divisé par 5 |
| Temps DPO sur classification manuelle | ~50 j/an | ~5 j/an (revue d'alertes) |
| Temps de réponse à un courrier CNIL | 15 jours ouvrés | 2 jours (l'audit log a déjà la traçabilité) |
ROI typique : 65-90 k€ économisés par an + réduction du risque CNIL. Sur la cible LMbox M (25 k€ HT + 9,6 k€/an d'accompagnement), payback en 4-6 mois.
Au-delà du chiffre brut : ce n'est pas le coût de l'audit qui change, c'est la fréquence de l'audit. On passe d'une photo annuelle à une vidéo continue. Aucun cabinet RGPD ne peut techniquement vous offrir ça.
Les pré-requis
- Connecteur SharePoint configuré avec OAuth tenant + scope
Sites.Read.All(admin consent côté Azure AD obligatoire — c'est l'erreur de déploiement la plus fréquente) - Mapping AD-groupes → folder ownership chargé dans la Box (typiquement déjà fait pour le SSO)
- Politique de rétention écrite par catégorie de document — l'IA ne peut pas détecter une violation de rétention si la rétention attendue n'a jamais été décidée
- 2 jours-DPO de calibrage initial : quelle base légale pour quelle catégorie, quelle rétention par type de contrat, quelles exceptions sectorielles (HDS pour la santé, secret professionnel pour le juridique, etc.)
Le déploiement
- J+1 → J+5 : connexion SharePoint, première sync complète, première détection sur les 14 patterns par défaut. Le DPO valide ou ajuste les règles à la marge.
- J+6 → J+15 : rollout des notifications Jira aux data owners, training rapide (1 h) sur la lecture du tableau de bord. Communication interne « le DPO devient proactif ».
- J+16 → J+30 : nettoyage des violations historiques. Première passe trouve typiquement 300 à 2 000 détections sur un SharePoint qui n'a jamais été audité — un volume gérable en 4 semaines avec les data owners impliqués.
- À partir de J+30 : régime permanent, ~50 à 200 nouvelles alertes/mois, traitement sous SLA 5 jours ouvrés.
Les limites & ce que ça ne fait pas
LMbox détecte les violations structurelles (PII non chiffrées, contrats incomplets, rétention dépassée). Il ne remplace pas :
- L'AIPD elle-même (analyse d'impact qui reste un travail juridique humain)
- Le consentement utilisateur (que l'IA ne peut pas obtenir à votre place)
- L'arbitrage sur les zones grises (« cette PII de RH est-elle un fichier "salariés" ou "candidats" ? »)
- La représentation devant la CNIL en cas de contrôle (votre cabinet RGPD garde son rôle)
C'est un copilote du DPO, pas un substitut. Les cabinets RGPD restent dans la boucle pour les cas exceptionnels — ils ont juste 90 % de cas en moins à traiter, et 10× plus de temps pour les 10 % qui comptent vraiment.