Aller au contenu principal

Humanités numériques

Le présent guide propose plusieurs ressources utiles aux étudiant.e.s, chercheur.se.s et professeur.e.s pour leurs travaux et projets de recherche en lien avec les humanités numériques.

Préparer les données

Formater et corriger les données afin d'en faciliter ensuite l'organisation

Une fois votre corpus constitué, il est parfois nécessaire de préparer les données afin qu’elles puissent être plus facilement interprétables et manipulables. La préparation des données varie selon le corpus (les données ou documents utilisés comme base au projet), les types de données qu’on vise à obtenir et leurs usages futurs.

Quel format choisir?

Avant de vous lancer dans l'analyse de vos données ou documents, assurez-vous que ceux-ci sont dans un format optimal pour votre recherche. Il est recommandé d'utiliser des formats de fichiers ouverts afin d’éviter la perte de données due à l’incompatibilité ou la désuétude du matériel et des logiciels. Pour en savoir plus à propos des formats :


Quels logiciels pour quels formats?

Le format des données est un aspect à considérer pour assurer une utilisation optimale des données collectées selon les logiciels utilisés et les buts souhaités. Les formats non propriétaires et les plus courants sont recommandés afin de maximiser l'interopérabilité entre les logiciels et une plus grande pérennité des données.

Voici une liste de logiciels gratuits et open source que nous recommandons pour lire différents formats de fichiers ou encore les migrer vers d'autres formats.


Types de contenus

Type et exemples de documents Formats de fichiers Logiciels de lecture/édition gratuits et open source
Textuel : articles, livres, archives, thèses, courriels, etc. ODT, DOC, PDF, TXT, RTF, etc.

Libre Office

PDF arranger

Iconographique : images vectorielles ou matricielles, photographies, graphiques, etc. JPEG, PNG, TIFF, PDF, SVG, etc. XnView
Audiovisuel : films, vidéos, musique, archives orales, etc. MPEG, MOV, MP3, WAV, etc.

Vidéo : VLC

Audio : Audacity

Géospatial : cartes et plans, données de système d'information géographique (SIG), données cartographiques, etc. DXF, GML, SHP, DBF, SHX, etc.

QGIS (Manuel QGIS)

Données : statistiques, données de recherche, données démographiques, données financières, données extraites de réseaux sociaux, etc. XLSX, CVS, XML, SQL, etc.

Libre Office

PostgreSQL

Hypermédia : sites web

HTML, MHTML, WARC, etc.

SeaMonkey

Firefox

3d : modélisation 3d, données CAD pour dessin assisté par ordinateur, etc.

OBJ, MTL, etc.

FreeCAD

Blender

Pour en savoir plus sur les différents formats de données et fichiers, consultez la page du site Solve the File Format Problem.

Nettoyage des données

Si vous travaillez à partir de données tabulaires (en format xlsx ou csv par exemple), des logiciels peuvent vous aider à nettoyer vos données.


Conversion de format

La conversion (ou migration) d'un format à un autre est parfois nécessaire pour faciliter l'interopérabilité des données entre logiciels ou pour en faciliter la pérennité.

  • Le logiciel LibreOffice supporte la conversion de documents en lots par ligne de commande. Ceci permet par exemple de convertir en lot des documents .DOC en format .PDF.
  • Le logiciel AntFileConverter permet de convertir des fichiers PDF et Word (DOCX) en format .TXT
  • Le site web I Love PDF permet d'effectuer des conversions de formats de fichiers PDF.
  • Conversion de PDF à texte : Sejda (période d'essai de 200 pages à chaque 3 heures). Le logiciel PDF Box peut être utilisé en ligne de commande Windows
  • Le FME Quick translator (intégré au logiciel ArcGIS) est un outil efficace pour la conversion des données géospatiales.

La conversion d'images en données textuelles

Certains projets en humanités numériques se basent sur des documents manuscrits anciens numérisés. L'océrisation et la transcription sont des techniques qui aident à transformer les caractères de texte en format image vers des formats textuels pour la recherche en plein texte.Schéma de la conversion d'un format image vers un format de données textuelles

Schéma de la conversion d'un format image vers un format de données textuelles

Source du document d'archives : Documents divers concernant Charles-E. Pouliot, 1824-1891, BAnQ Québec, Collection Centre d'archives de Québec, (03Q,P1000,S3,D1702).


Océrisation et transcription

L’océrisation, la reconnaissance optique des caractères (OCR), c’est la conversion des lettres du format image vers un format texte lisible par des logiciels ce qui permet ensuite de rechercher, traiter et manipuler plus aisément le contenu (par exemple, rechercher un mot ou expression dans un texte avec la commande CTRL+F). L’océrisation suit habituellement l’étape de numérisation des documents textuels, mais la plupart des articles et documents textuels en ligne déjà numérisés sont déjà océrisés.

Ressources pour l'océrisation et la transcription :

  • Vision de ChatGPT : disponible gratuitement, mais la quantité de documents qu'on peut traiter est limitée.
  • Acrobat Pro, logiciel d'OCR (disponible aux laboratoires informatiques de l'UQAM)
  • Transkribus (et Transkribus lite en ligne), FromThePage et Escriptorium sont des logiciels de transcription qui combinent plusieurs techniques : l'annotation libre, la reconnaissance optique de caractère (océrisation), l'analyse d'images et de reconnaissance de structure pour les documents textuels ou iconographiques en format PDF ou images (JPEG, PNG, etc.).
  • Kraken est un logiciel open source et gratuit d'OCR codé en Python.
  • Consultez aussi cette liste comparative de logiciels pour la reconnaissance optique de caractère. Note : les logiciels gratuits sont indiqués “GPL” ou “BSD” dans la colonne “License”.
  • GT text : application open source de SoftOCR pour les services publics. Il fonctionne à la fois comme un logiciel libre d'OCR et comme un outil de vérité de terrain. Les utilisateurs peuvent facilement copier des images en couleur avec du texte.
  • Microsoft Lens : application pour téléphone portable utile pour des besoins ponctuels d'océrisation, moins adapté aux gros corpus. Attention aux données sensibles avec ce genre d'outil.
  • Techniques et formats de conversion en mode texte (site de la Bibliothèque nationale de France)
  • Pour un exemple de projet d'océrisation de vieux journaux, voir l'article OCR Correction for Corpus-assisted Discourse Studies: A Case Study of Old Newspapers.

La conversion de sons en données textuelles

Certains projets en humanités numériques se basent sur des enregistrements sonores ou vidéo de paroles (archives orales, entrevues, entretiens, etc.). Dans ce cas, des logiciels peuvent aider à convertir les paroles enregistrées en format audio (fichiers .wav, .mp3 par exemple) vers des formats texte (.doc,. txt, par exemple).


Transcription manuelle

Voici quelques logiciels gratuits qui permettent de transcrire manuellement le contenu d'un fichier audio en texte.

Notez que le travail de transcription manuelle peut être facilité grâce à un pédalier de transcription.


Conversion automatique

Voici quelques sites et logiciels offrant des fonctionnalités de transcription automatique du format audio ou vidéo vers le format texte.

Logiciels open source gratuits :

Logiciels propriétaires payants avec essai gratuit :

Logiciels propriétaires :

Avertissement à propos des données sensibles
Si les données à analyser sont sensibles, il vaudrait mieux se tourner vers la plateforme Rev.com ou Sonix.ai. En effet, ces deux plateformes ont fait l'objet d'une analyse par l'équipe de sécurité informatique et les participants ont trouvé qu'elles étaient les les plus respectueuses du respect de la vie privée. La plateforme Happy Scribe qui, en termes de fonctionnalités et de performances semble la plus intéressante, ne donne pas assez d'informations sur leurs procédures et normes quant au respect de la vie privée. La plateforme Trint est, quant à elle, déconseillée par cette équipe si des données sensibles doivent être hébergées. 

La conversion d'images en données géospatiales

Si vous travaillez sur un projet impliquant la géomatique, la conversion de cartes en format image (JPEG, PNG, TIFF, etc.) en données géospatiales lisibles par système d'information géographique (SIG) pourrait être utile. Nous proposons ici d'utiliser le logiciel libre et open source QGIS pour ce faire.

 

Pour en savoir plus, consultez : Manuel QGIS, Tutoriels QGIS (en anglais) ainsi que notre Guide sur les données géospatiales.