Corriger un fichier CSV : adieu caractères spéciaux non interprétés

Photo of author

Par Elisa

Marre des fichiers CSV qui ressemblent à des hiéroglyphes dès qu’un caractère spécial pointe le bout de son nez ? Vous ouvrez votre fichier et boom, c’est l’hécatombe : des « Ã© » partout, des « Â© » qui n’ont rien à faire là. Franchement, qui a le temps pour ça ?

Pourquoi votre CSV fait des siennes ? Comprendre la source du problème

Vous avez un fichier CSV qui ressemble à un champ de bataille après une attaque de robots ? C’est souvent une question de bases mal comprises. Décortiquons ensemble les racines du mal.

L’énigme des encodages : UTF-8, ANSI et les autres

Un encodage, c’est la façon dont votre ordinateur stocke chaque caractère sous forme numérique. Pensez à une immense table de correspondance. Les encodages les plus courants sont UTF-8, ISO-8859-1 (aussi appelé Latin-1) et Windows-1252. Pour que vos caractères spéciaux comme « é », « à » ou « ç » soient correctement affichés, l’UTF-8 est votre meilleur ami. Quand l’encodage est incorrect, les accents et symboles se transforment en hiéroglyphes incompréhensibles. C’est le fameux « carré avec un point d’interrogation » que personne ne veut voir.

Le mystère du BOM et les séparateurs cachés

Le Byte Order Mark (BOM) est un marqueur invisible en début de fichier. Il indique l’encodage utilisé. Microsoft Excel sur Windows le cherche souvent pour bien interpréter l’UTF-8, alors que Linux ou macOS s’en passent très bien, voire le détestent. Et les séparateurs ? La virgule, le point-virgule, ils délimitent vos données en colonnes. Un mauvais séparateur, et hop, toutes vos informations se retrouvent dans une seule colonne ou complètement décalées.

Découvrez aussi :  L'essentiel de l'infrastructure réseau pour votre entreprise

Quand Excel s’emmêle les pinceaux

Excel a ses manies, et elles peuvent vous rendre dingue. Il attend souvent un UTF-8 avec BOM pour une lecture parfaite. Il est bon de savoir que Windows utilise souvent l’UTF-16 par défaut pour ses propres fichiers texte. D’autres causes de bazar : les fins de ligne différentes. Windows utilise CRLF, tandis que les systèmes Unix (et donc la plupart des outils web) préfèrent LF. Et si vos champs contiennent un séparateur, mais ne sont pas entre guillemets, Excel va tout mélanger.

La trousse à outils du dépanneur : corriger votre CSV pas à pas

Assez parlé de la théorie, passons à la pratique. Voici comment vous pouvez concrètement prendre les choses en main avec quelques outils efficaces.

Excel : l’assistant d’importation, votre meilleur ami

D’abord, fermez tout fichier CSV ouvert qui pose problème. Lancez un nouveau classeur Excel vierge. Allez dans le menu «Données» puis choisissez «À partir d’un fichier texte/CSV» pour sélectionner votre document capricieux. Ensuite, laissez l’assistant faire son travail.

Dans la fenêtre d’aperçu, vérifiez l’«Origine du fichier» et choisissez «Unicode (UTF-8)». Surtout, définissez le séparateur correct (souvent la virgule ou le point-virgule) avant de cliquer sur «Suivant» puis «Charger».

Notepad++ : le couteau suisse de l’encodage

Ouvrez votre document CSV récalcitrant directement dans Notepad++. Regardez dans le menu «Encodage» : Notepad++ vous indique l’actuel. Souvent, il détecte automatiquement si un BOM est présent ou non.

Pour la conversion, toujours dans le menu «Encodage», sélectionnez «Convertir en UTF-8 (sans BOM)». C’est la solution passe-partout. Si vous travaillez avec des applications très anciennes, vous pourriez exceptionnellement tenter «Convertir en ANSI».

Découvrez aussi :  Optimisation de l'espace : planification efficace des locaux

Autres outils pratiques : LibreOffice Calc et Google Sheets

Outil Encodage Séparateur Spécificité
LibreOffice Calc Choix à l’importation Sélection manuelle Précis, open source
Google Sheets Gère l’UTF-8 par défaut Détection automatique Collaboration en ligne
Éditeur de texte simple Conversion basique Manuel Pour des fichiers très simples

LibreOffice Calc offre des options d’importation puissantes, similaires à Excel, permettant de choisir précisément l’encodage et les séparateurs. Quant à Google Sheets, il gère nativement l’UTF-8 lors de l’importation. Cela simplifie énormément la tâche et vous évite des manipulations complexes d’encodage.

Prévenir plutôt que guérir : les bonnes pratiques pour vos CSV

Adopter les bonnes pratiques dès le départ vous épargnera bien des maux de tête. Mieux vaut prévenir que de devoir corriger sans cesse.

Générer des CSV impeccables dès le départ

  • Toujours générer en UTF-8 (avec BOM pour Excel Windows)
  • Choisir un séparateur cohérent (virgule ou point-virgule)
  • Uniformiser les fins de ligne (CRLF pour Windows, LF pour Unix)
  • Utiliser des guillemets pour les champs avec séparateurs ou sauts de ligne

L’encodage UTF-8 doit être votre maître mot. C’est la garantie que vos caractères spéciaux seront lus correctement, partout. Pas de surprise, pas de carré bizarre.

Maîtriser l’importation pour une lecture parfaite

Ne vous jetez pas sur le double-clic ! Utilisez toujours l’assistant d’importation d’Excel. Vous contrôlez ainsi l’encodage et le séparateur, pas de devinettes pour le logiciel.

Définissez explicitement le format de chaque colonne. Texte, date, nombre : chaque chose à sa place pour éviter les interprétations automatiques fantaisistes.

Pour aller plus loin