Aller au contenu principal

Humanités numériques

Le présent guide propose plusieurs ressources utiles aux étudiant.e.s, chercheur.se.s et professeur.e.s pour leurs travaux et projets de recherche en lien avec les humanités numériques.

Extraire les données et documents

Voici quelques trucs pour vous aider à moissonner des données, à numériser des documents ou encore stocker les items de votre corpus de travail.

Qu'est-ce que le moissonnage?

“Le moissonnage du Web est un processus par lequel des renseignements sont recueillis et copiés à partir du Web à l'aide de robots ou de scripts automatisés, aux fins d'extraction et d'analyse ultérieure.” (Statistique Canada)


Quelles sources d'information peuvent être moissonnées?

Il importe de respecter les droits d'utilisation des sources de données et documents qu'on veut extraire à l'aide d'outils de moissonnage automatisés. Les bases de données de publication qui permettent le moissonnage sont identifiés par l'icône de pelle ( )  dans la liste des bases de données de l'UQAM.

Quels outils utiliser?

Des outils de moissonnage (ou scraping en anglais) sont utiles notamment dans le cas où vous voulez extraire une quantité importante de documents à partir, par exemple, d’un site d’un éditeur pour constituer un corpus de toutes les publications d’une revue en format PDF afin d’en faire l’analyse à l’aide de logiciels de fouille de textes. Des applications programmées avec langage de programmation Python sont souvent utilisées pour l'extraction de données dans le contexte des sciences humaines. 


Quelques outils pour le moissonnage
  • Scrapy : outil open source pour extraire les données de sites web
  • Hyphe : un outil de collecte, d'indexation et de cartographie des ressources web. Il permet de constituer des corpus d'entités web (un site, une page web...) et de cartographier ces différentes entités sous forme de réseaux.
  • Social Feed Manager : logiciel open source qui permet de collecter, gérer et exporter les données des médias sociaux et les ressources Web de Twitter, Tumblr, Flickr et Sina Weibo.
  • Conifer : site qui utilise le logiciel gratuit et open source Webrecorder, permet d’extraire et d’archiver des pages web.
  • Beautiful Soup : une library de codes Python permettant d'extraire des données de fichiers HTML et XML.
  • Selenium : outil qui permet d'automatiser des opérations afin d'extraire des données sur des sites web.
  • Reddit Scraper : script Python qui extrait des URL de commentaires de Reddit et les inscrit dans des fichiers CSV.
  • Outils d'intelligence artificielle (IA) : des IA peuvent être utilisées pour extraire des données. Voir le site There's an AI for that qui répertorie plusieurs de ces outils, notamment pour générer des résumés d'articles.

Pour en savoir plus...

La numérisation : pourquoi et comment numériser?

Vous travaillez à partir d’archives textuelles ou de photographies en format papier ou encore à partir d’objets (sculpture, édifices, etc.)? Ces documents ou objets peuvent être numérisés afin de faciliter leur manipulation, leur analyse ou leur diffusion. Certaines institutions offrent des services de numérisation, le plus souvent payants. Si vous désirez numériser par vous-mêmes des documents ou objets, la section suivante s'adresse à vous.

Que ce soit pour la numérisation de quelques items ou pour un projet plus important en comportant des centaines voire des milliers, voici quelques ressources utiles pour vous aider à mener à bien un projet de numérisation :

Principales étapes et questions à considérer pour un projet de numérisation

1. Circonscrire et organiser l’ensemble des documents ou objets à numériser.

  • Quel est le type de contenu, de support, de format? Les moyens utilisés ne seront pas les mêmes pour numériser des objets en 3d que des documents. La grandeur des items est aussi un facteur à considérer dans votre projet, par exemple la numérisation de bâtiments ou de cartes géographiques demande une expertise poussée.
  • Quelle quantité d’items? La quantité de documents est un autre facteur à considérer avant de vous lancer dans un projet de numérisation.
  • Bien classer et identifier les documents préalablement vous aidera à effectuer le travail de numérisation de façon systématique.

2. Déterminer les besoins

  • Pourquoi numériser? Quels contenus seront utilisés durant le projet? Quels formats de fichier choisir pour la numérisation? La qualité de la numérisation dépend des utilisations futures, et ceci a un impact sur le temps de numérisation et la grosseur des fichiers finaux notamment. Des tests préalables de logiciels et de formats de fichiers assurent un meilleur résultat.
  • Quelles informations sur les documents sont importantes? L’auteur, l’année, le titre, la date de numérisation du document ou de l’objet sont autant d’éléments d’information qu’on peut vouloir conserver soit directement dans le nom du fichier ou dans un fichier ou un système de gestion des documents séparés.

3. Déterminer les outils nécessaires

  • Outils pour la numérisation
    • Scanners à alimentation automatique (pour des centaines ou des milliers d’items)
    • Scanners à plat ou téléphone cellulaire et tablettes (pour de petites quantités d’items)
    • Appareils photo numériques
  • Scanner 3d
  • Ordinateur
  • Logiciel(s) de lecture et de création des fichiers numériques selon les formats
  • Espace de stockage

4. Réaliser le projet

  • Préparer les objets ou documents en vérifiant leur état
  • Tester votre chaîne de numérisation avant de vous lancer dans la production en chaîne
  • Numériser selon les règles établies
  • Contrôler la qualité des numérisations et s’assurer que tous les items aient bien été numérisés
  • Exporter, sauvegarder, classer et indexer les fichiers afin de le trouver facilement.

Bien archiver données et documents

L'archivage de l'entièreté des données, informations et documents produits lors d'un projet de recherche sert à éviter des pertes de travail et de temps tout en le pérennisant pour consultation ou partage ultérieurs. Voici quelques points à considérer lorsque vient le temps d'aborder la question de l'archivage d'un projet :

  • La quantité de données et de documents du corpus : La taille et le type de fichiers que composent le corpus sont des facteurs à prendre en compte lorsque vient le temps de choisir une solution d'archivage. Un corpus de plusieurs milliers de PDF nécessite plusieurs GB de stockage, alors que des données sous format CSV ne pèsent presque rien.
  • La complexité du projet : Le projet implique-t-il plusieurs collaborateurs? S'étale-t-il sur plusieurs semaines, mois ou années? Dans le cas de projet complexes de longue haleine, l'utilisation d'outils de travail collaboratif adaptés est à envisager (voir la section à ce sujet).
  • Les copies de sauvegarde : Prévoir idéalement au moins une copie de sauvegarde de votre corpus et de vos documents de travail, dans un monde idéal 3 copies de différents types (infonuagique, disques durs, ordinateur, etc.). L'utilisation de services de stockage et de partage de copies de fichiers locaux en ligne tels que Google Drive, Dropbox ou OneDrive assure de sauvegarder les fichiers en infonuagique. Des disques durs externes ou clefs USB sont aussi une option possible.
  • La pérennité des données : Pouvoir lire les données plusieurs mois voire plusieurs années après sa fin est un enjeu. L'adoption de formats ouverts non-propriétaires aide à pérenniser les données du corpus et produites durant la recherche. Voir la section sur les formats de ce guide.
  • La sécurité des données : C'est aussi un aspect à considérer, surtout dans le cas de données sensibles ou personnelles. Voir le Guide de bonnes pratiques pour la sécurité informatique des données de recherche à ce sujet.
Pour en savoir plus sur la planification des données d'un projet de recherche, consultez le Guide de gestion des données de recherche.