Aller au contenu principal

Humanités numériques

Le présent guide propose plusieurs ressources utiles aux étudiant.e.s, chercheur.se.s et professeur.e.s pour leurs travaux et projets de recherche en lien avec les humanités numériques.

Organiser les données

Regrouper, structurer, décrire et indexer les données afin d'en faciliter ensuite l'analyse

Choisir une méthode et des outils d'organisation physique (classement) et intellectuelle (classification, indexation, description, etc.) des données peut simplifier le travail d'analyse. Nous proposons dans cette section des informations pour vous aider à organiser vos données.

Formats des données

La structuration des données par les formats permet d'organiser les données dans un fichier qui se présente sous forme de lignes de texte et de balises. Voici quelques formats parmi les plus courants pour organiser les données :

  • CSV : Données organisées par lignes dans lequel les entrées de données sont séparées par des virgules, d'où provient le nom comma-separated values (CSV). C'est un format de type tabulaire (par tableau) très facile d'emploi et lisible par plusieurs logiciels tels que LibreOffice ou Excel. Pour en savoir plus :
  • XML : Le format eXtensible Markup Language (XML) utilise des balises pour structurer les données. "Sa syntaxe est dite « extensible » car elle permet de définir différents langages avec pour chacun son vocabulaire et sa grammaire, comme XHTML, XSLT, RSS, SVG… Elle est reconnaissable par son usage des chevrons (<, >) encadrant les noms des balises. L'objectif initial de XML est de faciliter l'échange automatisé de contenus complexes (arbres, texte enrichi, etc.) entre systèmes d'informations [...]." (Wikipédia). Pour en savoir plus :
  • JSON : Le format JavaScript Object Notation (JSON) est dérivé de la notation des objets du langage JavaScript. Pour en savoir plus :
  • Resource Description Framework (RDF)"Un document structuré en RDF est un ensemble de triplets. Un triplet RDF est une association (sujet, prédicat, objet) : le « sujet » représente la ressource à décrire ; le « prédicat » représente un type de propriété applicable à cette ressource ; l' « objet » représente une donnée ou une autre ressource : c'est la valeur de la propriété." (Wikipédia)

Le RDF sert de base pour des référentiels plus élaborés utilisés dans le web sémantique tels que le Web Ontology Language (OWL) et le Simple Knowledge Organization System (SKOS). Le RDF est souvent présenté sous la forme de document XML, c'est le RDF/XML. Pour en savoir plus sur RDF :


Formats de fichiers de bases de données

Comment choisir les types de formats de bases de données à utiliser? Voici quelques pistes de réflexion.

1. Privilégier des formats non-propriétaires indépendants (sans besoin de plateforme de lecture, donc complets en soi) basés sur des caractères sont plutôt que des formats propriétaires ou basés sur du codage binaire. Les formats à favoriser devraient être : bien développés et soutenus, largement utilisés, des standards du domaine :

  • Qui permettent d'être vérifiés et validés avec des outils publics
  • De style "organisée par ligne", tel que CSV
  • Des formats ouverts et indépendants de logiciels ou plateforme (ce qui permet une meilleure interopérabilité), tel que .db, .db3

2. Tout format propriétaire qui est de facto une norme dans un domaine ou une profession données ou qui est supporté par plusieurs logiciels. Par exemple : .xls, xlsx, formats Shapefile

3. Formats de codage des caractères tels que : UTF-8, UTF-16, US-ASCII, ISO 8859-1

(Source : Library of Congress)

Introduction aux bases de données

L'organisation des données sous forme de bases de données permet une meilleure recherchabilité, manipulabilité, interopérabilité et pérennité des données. Le choix du type de bases de données dépend de la quantité de données à traiter et des types d'analyses que l'on veut réaliser sur les données. Par exemple, un fichier de données tabulaires (fichiers Excel par exemple) peut très bien convenir pour des projets simples, alors que des bases de données avec des structures plus complexes (bases de données SQL par exemple) sont à considérer dans le cas de projets complexes demandant des analyses poussées entre plusieurs variables.

"Une base de données permet de stocker et de retrouver des données structurées, semi-structurées ou des données brutes ou de l'information, souvent en rapport avec un thème ou une activité ; celles-ci peuvent être de natures différentes et plus ou moins reliées entre elles. Leurs données peuvent être stockées sous une forme très structurée (base de données relationnelles par exemple), ou bien sous la forme de données brutes peu structurées (avec les bases de données NoSQL par exemple). Une base de données peut être localisée dans un même lieu et sur un même support informatisé, ou répartie sur plusieurs machines à plusieurs endroits." (Wikipédia)


Types de bases de données

Les bases de données permettent de mettre en place des relations et structures plus complexes que les seuls fichiers de données. Voici quelques types de bases de données parmi les plus utilisées :

  • Bases de données relationnelles. Une base de données relationnelle est un ensemble de tables comportant des lignes et des colonnes. "Les bases de données relationnelles sont parmi les bases de données les plus répandues. [...] Le langage de base de données le plus courant, SQL, est une expression du modèle relationnel." (D. Lemire, INF 6408, Teluq)
  • Bases de données orientées objet. Les informations de ce type de base de données sont représentées sous forme d’objets tels que conçus dans la programmation orientée objet.
  • Bases de données NoSQL. "Une base de données NoSQL, ou non relationnelle, permet de stocker et de manipuler des données non structurées et semi-structurées (à la différence d’une base de données relationnelle, qui définit la manière dont doivent être composées toutes les données insérées dans la base de données)." (Oracle, Qu’est-ce qu’une base de données?)
  • Bases de données orientées graphe. Bases dans lesquelles les données sont organisées en termes d’entités et de relations entre les entités.
  • Bases de données XML native. Bases qui s'appuient sur le modèle de données fourni par XML.

Systèmes de gestion de base de données (SGDB)

Un système de gestion de base de données (abr. SGBD) est un logiciel système servant à stocker, à manipuler ou gérer, et à partager des données dans une base de données, en garantissant la qualité, la pérennité et la confidentialité des informations, tout en cachant la complexité des opérations. (Wikipédia)

Nous présentons ici quelques SGDB.


Conception d'une base de données

Nous présentons ici les principales étapes de la mise en place d'une base de données.

  1. Déterminer les besoins et exigences : quelques aspects à prendre en compte : quantité et types de données, types de traitement et d'analyse envisagés, logiciels utilisés, normes de description, interopérabilité avec d'autres systèmes, type de SGBD, etc.
  2. Créer le schéma conceptuel : Le schéma conceptuel sert à définir les relations entre les éléments de la base de données. Le résultat est un ERD (Entity Relationship Diagram), c'est-à-dire un diagramme d'entité-relation ou un diagramme de classes UML (Unified Modeling Language).
  3. Définir les relations entre les éléments : Les clés primaires et de clés étrangères sont ajoutés afin de compléter la conception logique de la structure de la base de données.
  4. Normaliser : supprimer les redondances dans la base de données, peaufiner le schéma pour éviter la duplication des données.
  5. Mettre en place la base de données : Implanter le schéma dans un SGBD (Systèmes de gestion de base de données) puis ajouter les données mises en forme (préalablement ou subséquemment) dans la base de données.

Schémas de bases de données

Voici quelques outils pour aider à réaliser un diagramme de classe UML pour la modélisation de systèmes informatiques orientée objet. 

Pour en savoir plus : Introduction au langage de modélisation UML (cours en ligne, Conan, Taconet & Bac, 2015)

Comment structurer l'information?

Le choix d'un format de fichier de données détermine les opérations possibles qu'on peut effectuer sur celles-ci, mais ne détermine pas comment décrire, identifier et structurer l'information de façon optimale.

 


Normes de description

Se basant sur des formats de données tels que RDF ou XML, les normes de description indiquent comment structurer l'information (en classes, sous-classes, éléments et les liens logiques entre eux), quelles métadonnées sont nécessaires pour décrire les fichiers, données et documents numériques numériques, et comment encoder ces métadonnées afin d'assurer leur préservation, leur utilisation et leur échange entre les systèmes d'information. Nous présentons plus bas quelques normes de description utiles pour la description de documents et de données.

Dublin Core™ : vocabulaire du web sémantique utilisé pour exprimer les données dans un modèle RDF.

EAD (Encoded Archival Description) : norme XML pour la description des documents d'archives.

METS (Metadata Encoding & Transmission Standard) : schéma pour l'encodage de métadonnées pour les objets d'une bibliothèque numérique.
MODS (Metadata Object Description Schema) : vocabulaire XML de description bibliographique développé par la Bibliothèque du Congrès des États-Unis.

Text Encoding Initiative (TEI) : normes pour la représentation de textes en format numérique. Spécifie les méthodes d'encodages pour faciliter la lecture des textes par des logiciels dans le domaine des sciences humaines.

PREMIS Data Dictionary for Preservation Metadata : norme internationale des métadonnées pour la préservation des objets numériques.

Il existe plusieurs autres normes de description développées par la Bibliothèque du congrès états-unien ou encore le Metadata Standards Catalog, un répertoire de normes pour les métadonnées de recherche.

Thésaurus et vocabulaires contrôlés

Les thésaurus et vocabulaires contrôlés permettent d'identifier et de classer de façon précise et univoque des éléments d'un champ disciplinaire afin de normaliser la description des éléments et le lien hiérarchique entre eux, et ainsi de mieux partager les informations et connaissances, facilitant la normalisation et le partage d'information et de connaissance dans un domaine précis.

Consultez la page Linked Data Service sur les données liées pour trouver et accéder à plusieurs normes pour des domaines spécifiques.

Comment gérer les données et documents tout au long du projet?

La gestion des données et documents durant toute la durée du projet et même une fois celui-ci terminé est un aspect à considérer surtout dans le cas de projets complexes, de longue haleine ou impliquant plusieurs collaborateurs. Nous proposons ici quelques pistes de réflexion et outils pour vous aider.


Gestion de projet et outils collaboratifs

Il existe une panoplie d'outils pour vous aider à mieux gérer votre projet et à mieux collaborer.

Voir la section Collaboration et gestion de projet de ce guide.

Gestion de la documentation

Zotero

Le logiciel gratuit et open source Zotero permet d'organiser et de classer des ressources documentaires (articles, livres, archives, etc.), mais aussi d'autres types de ressources telles que des liens web ou une collection de PDF. C'est un outil pratique pour gérer la documentation d'un projet de recherche en humanités numériques grâce à ses fonctionnalités de classification, d'annotation, d'indexation et d'export d'informations.

Pour en savoir plus sur l'installation et les fonctions de base, consultez le Carrefour Zotero.
Migrer les données de Zotero en format CSV

Pour extraire les références de Zotero vers le format CSV (Excel) :

  1. Dans la version bureau de Zotero, sélectionner les notices à exporter.
  2. Cliquer à gauche, puis exporter les documents.
  3. Choisir format CSV et cliquer OK. Sauvegarder le fichier.
  4. Ouvrir et convertir dans Excel (voir les instructions ici)
Autres logiciels
  • Diigo : Outil de collecte, d'annotation, de classement et de partage de ressources en ligne
  • Docear – The Academic Literature Suite : un outil de gestion de corpus, de mind mapping et d’annotation. Rassemble plusieurs outils: gestion de pdf, gestion des références et création de cartes heuristiques entre autres.
  • TreeLine : Logiciel pour organiser des documents en collection. Plusieurs formats d'entrée et d'export possibles.

Gestion des données de recherche (GDR)

" La gestion des données de recherche désigne les processus appliqués tout au long du cycle de vie d'un projet de recherche pour guider la collecte, la documentation, le stockage, le partage et la conservation des données de recherche "

(Gouvernement du Canada, Foire aux questions, Politique des trois organismes sur la gestion des données de recherche)

Références