Rédaction de PDF : les erreurs à ne pas reproduire chez vous

Lire cet article en anglais.

De nombreux outils sont disponibles pour supprimer les données sensibles des documents électroniques, mais tout le monde ne les connaît pas. L'article d'aujourd'hui vous montre les erreurs de rédaction de PDF qui ont fait l'actualité ces dernières années. Ces erreurs ont été réalisées par des professionnels, ne les reproduisez pas chez vous !

Sommaire

Qu'est-ce que la rédaction de PDF ?

Note : dans cet article, nous utilisons alternativement les termes biffer et rédaction de PDF (en anglais, PDF redaction) pour désigner l’action de supprimer des données d’un fichier électronique de manière définitive. 

Dans sa définition la plus neutre, la rédaction de PDF est le processus qui consiste à supprimer définitivement les éléments visibles d’un document.

Nous avons déjà abordé ce sujet dans deux articles précédents :


Dans l’article d’aujourd’hui, nous allons vous montrer les erreurs à ne surtout pas reproduire lorsqu’on veut supprimer les données d’un PDF.
Mais avant cela, retour sur l’historique de cette technique. 

Etymologie

En anglais, selon le dictionnaire Merriam-Webster, le verbe « to redact » est utilisé depuis le 15e siècle, dérivant du latin redigere « conduire, diriger ou ramener, réunir, collecter, arranger, réduire ».

Au début du XIXe siècle, « redaction » signifie simplement organiser ou éditer. On retrouve ce sens en français, où un rédacteur est un éditeur, généralement dans un média. 

De la suppression à la censure

Au-delà de sa définition neutre basée sur l’étymologie, l’acte de biffer revêt souvent un aspect moral en rapport avec la notion de censure. 

Depuis que l’écriture existe, on a cherché à cacher les mots sensibles.

Récemment et grâce aux nouvelles technologies de radiographie, les lettres de Marie-Antoinette au comte de Fersen ont révélé leurs secrets. Alors que le contenu de leur correspondance est principalement politique, les phrases où Fersen écrit sur ses sentiments sont expurgées (par lui-même !) pour éviter la censure. 

Redacted letter of Marie-Antoinette to the Fersen Count
Les secrets des lettres de Marie-Antoinette au comte de Fersen révélés. Arch. nat., 440AP/1. © CRC

La frontière entre la rédaction et la censure est mince.

En anglais, une définition de la rédaction est la suivante : « texte et images confidentiels d’un document qui ont été censurés, supprimés ou masqués. »

En français, « biffer » et « caviarder » signifient tous deux « supprimer les données sensibles d’un document », mais caviarder signifie également censurer. Le premier sens de « caviarder » est, en effet, « couvrir d’un enduit noir (aussi noir que le caviar), rendre illisible un passage d’un texte interdit par la censure. »

Selon le contexte dans lequel le document est produit, on peut considérer le caviardage comme un acte de censure. En l’absence de contexte, nous lui préférons l’expression de « rédaction », qui est plus neutre et sans aucune notion de politique ou de morale. 

Du tribunal...

Si les questions juridiques ont poussé à l’utilisation de la rédaction dans tous les pays, aux États-Unis, l’essor de son adoption est lié à deux événements spécifiques. 

Tout d’abord, la nécessité de protéger les témoins d’organisations criminelles comme la mafia lorsqu’ils étaient mentionnés dans des documents produits devant les tribunaux.

Ensuite, depuis l’adoption de la loi sur la liberté d’information (FOIA Freedom of Information Act) en 1966, les agences gouvernementales doivent mettre à la disposition du public une grande quantité de documents. Toutefois, la diffusion de ce type d’information n’est possible que si tous les éléments faisant référence à des questions de sécurité nationale ou à des données personnelles et sensibles sont supprimés. Cela est possible grâce à la « section d’exemption » de la FOIA. 

Et c’est pourquoi de nombreux documents qui tombent dans le domaine de la FOIA ressemblent à ceci :

Heavily redacted file
Au début des années 1970, le gouvernement américain a surveillé l'ex-Beatle John Lennon. Il s'agit d'une lettre du directeur du FBI, J. Edgar Hoover, au procureur général. J. Edgar Hoover, domaine public, via Wikimedia Commons

Dans les années 70, nous n’avions pas de documents électroniques ni de rédaction de PDF, et nous devions donc encore compter sur un bon marqueur noir pour effacer les informations. 

Mais cela ne signifie pas que nous faisons mieux aujourd’hui, même avec des outils largement disponibles et simples d’utilisation.

Le rapport Mueller

L’affaire qui a fait connaître la rédaction de PDF au grand public. 

Tendance : ‘redact,’ ‘redacted’
Les consultations ont atteint un pic de 4 000 % le 29 mars 2019.
Merriam-Webster

En 2019, le ministère américain de la Justice a publié le rapport Mueller.
Pour situer le contexte, le procureur spécial Robert Mueller était chargé d’enquêter sur les soupçons de collusion entre Moscou et l’équipe de campagne de Donald Trump en 2016. Dans son rapport, Mueller exclut toute collusion entre les équipes de Donald Trump et le pouvoir russe. Cependant, il met en avant, sans pouvoir trancher, une série d’incidents qui tendent à montrer que le président a cherché à entraver le déroulement de l’enquête et s’interroge sur une éventuelle obstruction au cours de la justice.

En utilisant le Freedom of Information Act, plusieurs médias comme BuzzFeed News, puis CNN, ont intenté une action en justice pour avoir accès au rapport. 

Le ministère de la justice a accédé à leur souhait, mais avec de légères modifications. 
En effet, environ un huitième des lignes sont caviardées, tombant dans la section d’exemption.

Redacted pages of the Mueller report
Un échantillon du rapport Mueller, tel que présenté sur l'article de NPR du 18 avril 2019.

Ceci dit, il y a beaucoup de choses à redire sur la version que le ministère de la Justice a fournie au public. Avec entre autres, comme principaux problèmes :

  • le rapport n’était pas interrogeable (pas d’OCR),
  • le fichier était très, très volumineux.


Ces deux aspects ont rendu le rapport difficile à partager et à consulter, alors qu’il aurait facilement pu en être autrement, surtout avec un fichier PDF.

Pour en savoir plus sur la manière dont le ministère de la Justice aurait pu améliorer ce fichier, consultez l’article de la PDF Association « A Technical and Cultural Assessment of the Mueller Report PDF« .

...au bureau

Au-delà du secret défense, toutes les entreprises et organismes du monde entier doivent gérer des données sensibles et personnelles.

Certains secteurs ont l’obligation légale de ne pas rendre publiques certaines de leurs données, comme la justice avec le secret judiciaire et le domaine de la santé avec le secret médical et professionnel.

Mais pour toutes les autres entreprises ou organismes, des réglementations existent à plusieurs niveaux pour protéger les employés, les clients, et les usagers.

  • Le RGPD en Europe et, en particulier, la CNIL en France ;
  • La loi californienne sur la protection de la vie privée des consommateurs (California Consumer Privacy Act) aux États-Unis ;
  • Le Brésil a récemment mis en place une loi similaire, et d’autres pays suivent le mouvement.


Les ministères de la justice agissent relativement vite dans ce type d’affaire. Par exemple, huit mois après la mise en œuvre du RGPD, la CNIL en France a réclamé à Google plus de 50 millions d’euros, et l’amende a été confirmée par le Conseil d’État en 2020.
En termes de sanctions, les infractions au RGPD peuvent coûter jusqu’à 20 millions d’euros ou 4% du chiffre d’affaires mondial des entreprises.

Les gros ratés de la rédaction de PDF : 3 exemples

Malheureusement, il existe de nombreux cas de rédaction qui ont mal tourné.
Nous remercions les personnes et les entreprises citées dans les trois exemples suivants pour montrer à tous les pratiques à éviter.  

fail

Facebook aime vos données personnelles

Même si les gens ne font plus confiance au célèbre réseau social, c’est en fait une erreur de rédaction de PDF qui l’a empêché de vendre des données personnelles à un tiers en 2012. 

En 2017, un PDF mal expurgé montrait que Facebook envisageait de faire payer des grandes entreprises au moins 250 000 dollars pour accéder aux données personnelles de leurs utilisateurs.

Le journaliste d’Ars Technica Cyrus Farivar a découvert le problème en faisant un simple copié-collé d’un document relatif à un procès datant de 2017 dans un éditeur de texte. Il s’agit en effet du test le plus élémentaire pour voir si un document est correctement expurgé. Copiez-collez votre suspect dans un éditeur de texte du type Notepad ou traitement de texte. Si vous pouvez lire le texte censé avoir été expurgé, cela signifie que la manipulation n’a pas fonctionné. 

Vous verrez dans l’exemple suivant que c’est aussi l’erreur la plus fréquente que font les gens lorsqu’ils expurgent un document. Ce n’est pas parce qu’une phrase est recouverte de noir (avec l’outil surligneur ou une annotation) qu’elle n’existe plus.

Paul Manafort et les nouvelles technologies

Paul Manafort était le directeur de la campagne présidentielle de Donald Trump en 2016.

Sa série de gaffes est si longue qu’elle fait de lui l’exemple type des campagnes de sécurité numérique. Il a fait tout ce qu’il ne fallait pas faire dans un contexte politique sensible : réutilisation d’emails et d’anciens mots de passe, erreurs dans la conversion des documents, stockage de messages compromettants dans le Cloud, etc. 

Son équipe d’avocats n’était pas plus douée que lui en informatique lorsqu’elle a tenté de caviarder un passage sensible.

Vous l’auriez deviné, c’est en copiant et collant simplement un paragraphe expurgé que la justice a découvert de nouveaux détails sur la relation de Manafort avec Konstantin Kilimnik, un ancien associé ayant des liens avec la Russie. 

Le contrat entre AstraZeneca et l'UE

Il semble que nous puissions constater une *légère* amélioration technologique dans notre prochain cas.

Au début de l’année dernière, et dans un souci de transparence, la Commission Européenne a publié le contrat qu’elle a conclu avec la société de vaccins AstraZeneca.

À première vue, le contrat semble correctement expurgé avec les outils appropriés. Cependant, les signets du PDF faisant référence au contenu biffé ont été oubliés.

Sur quoi portait la partie expurgée ? Le montant total de ce contrat (870 millions d’euros).

Comment éviter la catastrophe

La technologie permettant de supprimer définitivement les données dans les PDFs n’est pas nouvelle, mais elle est (apparemment) encore peu connue.
En effet, dès 1998, la société Appligent dépose un brevet sur l’édition de PDF (pour rappel, Adobe a sorti la première version du PDF en 1993). En 2006, dans la version 1.7, Adobe a ajouté un addendum sur les annotations de rédaction, aka les biffures. 

Copié-collé et autres astuces

Nous avons donc vu ce qui se passe quand on se contente de mettre des rectangles noirs ou des annotations sur des informations confidentielles grâce au test du copier-coller ; on ne supprime pas le texte ou l’image en dessous, on le cache simplement.

Nous avons également noté de ne pas oublier les signets grâce à AstraZeneca. Mais il y a encore d’autres endroits à vérifier, comme :

  • les légendes d’images,
  • les liens hypertextes,
  • les fichiers intégrés,
  • les pièces jointes.

Mais le boulot n'est pas terminé

En règle générale avec les PDFs, vous devriez toujours vous demander : « si je ne vois rien, est-ce que cela signifie qu’il n’y a rien ? »

Comme tout autre document électronique, le PDF est composé d’une partie visible, ce que l’on voit en l’ouvrant, et d’une partie dite invisible qui est plus ou moins cachée.

Le problème avec les informations sensibles ? Vous pouvez les trouver dans les parties moins visibles du PDF. Allons les débusquer.

Assainissement

Si la rédaction est le processus qui consiste à supprimer les informations visibles d’un document électronique, l’assainissement (sanitization) est le même processus, mais pour les informations cachées (ou je préfère l’expression « moins visibles »).

Par information cachée/moins visible, nous entendons:

  • les métadonnées du fichier (auteur, titre, date de création, version PDF, etc.),
  • les métadonnées des fichiers et images embarqués,
  • les annotations,
  • les commentaires,
  • les couches de texte cachées (couche OCR, et sous les annotations).


Souvent, les données sensibles que vous avez soigneusement identifiées sur un PDF peuvent apparaître ailleurs. Par exemple, vous avez supprimé le nom d’une personne dans le texte visible, mais il peut aussi se trouver dans les métadonnées des images ou dans des commentaires.

Si l’assainissement, comme la rédaction PDF, peut être automatisé, il est souvent nécessaire de procéder à une vérification manuelle, notamment (surtout) dans les cas suivants :

  • images dans différents formats,
  • feuilles de calcul,
  • fichiers attachés,
  • index.
Un mot sur les métadonnées

Les moteurs de recherche peuvent accéder aux métadonnées. Soyez donc très prudent lorsque vous diffusez un document expurgé en ligne. 

Les métadonnées peuvent contenir pratiquement n’importe quelle information et peuvent être liées soit au document en général, soit à des objets distincts contenus dans le document, comme des images, des polices de caractères, etc.

Les logiciels de lecture de PDF standard n’ont généralement pas accès à toutes ces informations, mais elles peuvent néanmoins être extraites par des solutions de traitement PDF avancées.
Un élément que les développeurs doivent garder à l’esprit lors de la rédaction de documents.

Pour résumer

En matière de rédaction de PDF, il est essentiel d’utiliser les bons outils. Mais ce qui est crucial, c’est de vérifier toutes les sources potentielles d’information.
Dans les cas complexes qui ne se limitent pas à la simple suppression des numéros de téléphone ou de sécurité sociale (des processus simples qui peuvent facilement être automatisés) et où la sémantique entre en jeu, aucun outil ne peut battre une personne formée. 

Essayez notre outil de rédaction de PDF en ligne

Si vous recherchez un SDK de rédaction avancé, consultez nos outils pour développeurs

Cheers!

Elodie

avepdf icon
Vous avez besoin d'aide pour gérer vos documents électroniques ?

Articles similaires