Guides par sujet: Humanités numériques: Extraire les données

Extraire les données et documents

Voici quelques trucs pour vous aider à moissonner des données, à numériser des documents ou encore stocker les items de votre corpus de travail.

Qu'est-ce que le moissonnage?

“Le moissonnage du Web est un processus par lequel des renseignements sont recueillis et copiés à partir du Web à l'aide de robots ou de scripts automatisés, aux fins d'extraction et d'analyse ultérieure.” (Statistique Canada)

Quelles sources d'information peuvent être moissonnées?

Il importe de respecter les droits d'utilisation des sources de données et documents qu'on veut extraire à l'aide d'outils de moissonnage automatisés. Les bases de données de publication qui permettent le moissonnage sont identifiés par l'icône de pelle ( ) dans la liste des bases de données de l'UQAM.

Quels outils utiliser?

Des outils de moissonnage (ou scraping en anglais) sont utiles notamment dans le cas où vous voulez extraire une quantité importante de documents à partir, par exemple, d’un site d’un éditeur pour constituer un corpus de toutes les publications d’une revue en format PDF afin d’en faire l’analyse à l’aide de logiciels de fouille de textes. Des applications programmées avec langage de programmation Python sont souvent utilisées pour l'extraction de données dans le contexte des sciences humaines.

Consultez cette liste de logiciels de moissonnage.

Quelques outils pour le moissonnage

Scrapy : outil open source pour extraire les données de sites web
Hyphe : un outil de collecte, d'indexation et de cartographie des ressources web. Il permet de constituer des corpus d'entités web (un site, une page web...) et de cartographier ces différentes entités sous forme de réseaux.
Social Feed Manager : logiciel open source qui permet de collecter, gérer et exporter les données des médias sociaux et les ressources Web de Twitter, Tumblr, Flickr et Sina Weibo.
Conifer : site qui utilise le logiciel gratuit et open source Webrecorder, permet d’extraire et d’archiver des pages web.
Beautiful Soup : une library de codes Python permettant d'extraire des données de fichiers HTML et XML.
Selenium : outil qui permet d'automatiser des opérations afin d'extraire des données sur des sites web.
Reddit Scraper : script Python qui extrait des URL de commentaires de Reddit et les inscrit dans des fichiers CSV.
Outils d'intelligence artificielle (IA) : des IA peuvent être utilisées pour extraire des données. Voir le site There's an AI for that qui répertorie plusieurs de ces outils, notamment pour générer des résumés d'articles.

Pour en savoir plus...

Getting structured data from the Internet : running web crawlers/scrapers on a big data production scale par Jay M Patel / Apress
ISBN: 9781484265765

Date de publication: 2020

Le moissonnage vous permet de sauvegarder les données accessibles sur le web en données structurées utilisables pour la recherche. Ce livre vous explique comment utiliser des scripts Python pour moissonner des données de sites web en HTML ou JavaScript et les transformer en format CSV, Excel, JSON, ou les transférer dans une base de données SQL.
The Data Journalist par Fred Vallance-Jones; David McKie
ISBN: 9780199020065

Date de publication: 2017-03-01

Guide sur l'utilisation des données et technologies dans un contexte de communication journalistique, notamment sur l'extraction et l'identification de données.

La numérisation : pourquoi et comment numériser?

Vous travaillez à partir d’archives textuelles ou de photographies en format papier ou encore à partir d’objets (sculpture, édifices, etc.)? Ces documents ou objets peuvent être numérisés afin de faciliter leur manipulation, leur analyse ou leur diffusion. Certaines institutions offrent des services de numérisation, le plus souvent payants. Si vous désirez numériser par vous-mêmes des documents ou objets, la section suivante s'adresse à vous.

Que ce soit pour la numérisation de quelques items ou pour un projet plus important en comportant des centaines voire des milliers, voici quelques ressources utiles pour vous aider à mener à bien un projet de numérisation :

Recueil de règles de numérisation de Bibliothèque et Archives nationales du Québec (BAnQ)
Normes de numérisation de la Société du Musée canadien des civilisations
Outils de la numérisation de la Bibliothèque nationale de France (BnF)

Principales étapes et questions à considérer pour un projet de numérisation

1. Circonscrire et organiser l’ensemble des documents ou objets à numériser.

Quel est le type de contenu, de support, de format? Les moyens utilisés ne seront pas les mêmes pour numériser des objets en 3d que des documents. La grandeur des items est aussi un facteur à considérer dans votre projet, par exemple la numérisation de bâtiments ou de cartes géographiques demande une expertise poussée.
Quelle quantité d’items? La quantité de documents est un autre facteur à considérer avant de vous lancer dans un projet de numérisation.
Bien classer et identifier les documents préalablement vous aidera à effectuer le travail de numérisation de façon systématique.

2. Déterminer les besoins

Pourquoi numériser? Quels contenus seront utilisés durant le projet? Quels formats de fichier choisir pour la numérisation? La qualité de la numérisation dépend des utilisations futures, et ceci a un impact sur le temps de numérisation et la grosseur des fichiers finaux notamment. Des tests préalables de logiciels et de formats de fichiers assurent un meilleur résultat.
Quelles informations sur les documents sont importantes? L’auteur, l’année, le titre, la date de numérisation du document ou de l’objet sont autant d’éléments d’information qu’on peut vouloir conserver soit directement dans le nom du fichier ou dans un fichier ou un système de gestion des documents séparés.

3. Déterminer les outils nécessaires

Outils pour la numérisation
- Scanners à alimentation automatique (pour des centaines ou des milliers d’items)
- Scanners à plat ou téléphone cellulaire et tablettes (pour de petites quantités d’items)
- Appareils photo numériques
Scanner 3d
Ordinateur
Logiciel(s) de lecture et de création des fichiers numériques selon les formats
Espace de stockage

4. Réaliser le projet

Préparer les objets ou documents en vérifiant leur état
Tester votre chaîne de numérisation avant de vous lancer dans la production en chaîne
Numériser selon les règles établies
Contrôler la qualité des numérisations et s’assurer que tous les items aient bien été numérisés
Exporter, sauvegarder, classer et indexer les fichiers afin de le trouver facilement.

Bien archiver données et documents

L'archivage de l'entièreté des données, informations et documents produits lors d'un projet de recherche sert à éviter des pertes de travail et de temps tout en le pérennisant pour consultation ou partage ultérieurs. Voici quelques points à considérer lorsque vient le temps d'aborder la question de l'archivage d'un projet :

La quantité de données et de documents du corpus : La taille et le type de fichiers que composent le corpus sont des facteurs à prendre en compte lorsque vient le temps de choisir une solution d'archivage. Un corpus de plusieurs milliers de PDF nécessite plusieurs GB de stockage, alors que des données sous format CSV ne pèsent presque rien.
La complexité du projet : Le projet implique-t-il plusieurs collaborateurs? S'étale-t-il sur plusieurs semaines, mois ou années? Dans le cas de projet complexes de longue haleine, l'utilisation d'outils de travail collaboratif adaptés est à envisager (voir la section à ce sujet).
Les copies de sauvegarde : Prévoir idéalement au moins une copie de sauvegarde de votre corpus et de vos documents de travail, dans un monde idéal 3 copies de différents types (infonuagique, disques durs, ordinateur, etc.). L'utilisation de services de stockage et de partage de copies de fichiers locaux en ligne tels que Google Drive, Dropbox ou OneDrive assure de sauvegarder les fichiers en infonuagique. Des disques durs externes ou clefs USB sont aussi une option possible.
La pérennité des données : Pouvoir lire les données plusieurs mois voire plusieurs années après sa fin est un enjeu. L'adoption de formats ouverts non-propriétaires aide à pérenniser les données du corpus et produites durant la recherche. Voir la section sur les formats de ce guide.
La sécurité des données : C'est aussi un aspect à considérer, surtout dans le cas de données sensibles ou personnelles. Voir le Guide de bonnes pratiques pour la sécurité informatique des données de recherche à ce sujet.

Pour en savoir plus sur la planification des données d'un projet de recherche, consultez le Guide de gestion des données de recherche.

Humanités numériques

Quels éditeurs et bases de données permettent l'accès à leurs contenus?

Licence d'utilisation