Articles Wikipédia sur les bases de données
L'environnement et logiciel gratuit nodegoat est spécialement conçu pour les projets en humanités numériques. Il permet notamment de créer son propre modèle de données et de les visualiser.
Choisir une méthode et des outils d'organisation physique (classement) et intellectuelle (classification, indexation, description, etc.) des données peut simplifier le travail d'analyse. Nous proposons dans cette section des informations pour vous aider à organiser vos données.
La structuration des données par les formats permet d'organiser les données dans un fichier qui se présente sous forme de lignes de texte et de balises. Voici quelques formats parmi les plus courants pour organiser les données :
<
, >
) encadrant les noms des balises. L'objectif initial de XML est de faciliter l'échange automatisé de contenus complexes (arbres, texte enrichi, etc.) entre systèmes d'informations [...]." (Wikipédia). Pour en savoir plus :
Le RDF sert de base pour des référentiels plus élaborés utilisés dans le web sémantique tels que le Web Ontology Language (OWL) et le Simple Knowledge Organization System (SKOS). Le RDF est souvent présenté sous la forme de document XML, c'est le RDF/XML. Pour en savoir plus sur RDF :
What is RDF? (Ontotext)
Comment choisir les types de formats de bases de données à utiliser? Voici quelques pistes de réflexion.
1. Privilégier des formats non-propriétaires indépendants (sans besoin de plateforme de lecture, donc complets en soi) basés sur des caractères sont plutôt que des formats propriétaires ou basés sur du codage binaire. Les formats à favoriser devraient être : bien développés et soutenus, largement utilisés, des standards du domaine :
2. Tout format propriétaire qui est de facto une norme dans un domaine ou une profession données ou qui est supporté par plusieurs logiciels. Par exemple : .xls, xlsx, formats Shapefile
3. Formats de codage des caractères tels que : UTF-8, UTF-16, US-ASCII, ISO 8859-1
(Source : Library of Congress)
Dernière mise à jour : mai 2024
L'organisation des données sous forme de bases de données permet une meilleure recherchabilité, manipulabilité, interopérabilité et pérennité des données. Le choix du type de bases de données dépend de la quantité de données à traiter et des types d'analyses que l'on veut réaliser sur les données. Par exemple, un fichier de données tabulaires (fichiers Excel par exemple) peut très bien convenir pour des projets simples, alors que des bases de données avec des structures plus complexes (bases de données SQL par exemple) sont à considérer dans le cas de projets complexes demandant des analyses poussées entre plusieurs variables.
"Une base de données permet de stocker et de retrouver des données structurées, semi-structurées ou des données brutes ou de l'information, souvent en rapport avec un thème ou une activité ; celles-ci peuvent être de natures différentes et plus ou moins reliées entre elles. Leurs données peuvent être stockées sous une forme très structurée (base de données relationnelles par exemple), ou bien sous la forme de données brutes peu structurées (avec les bases de données NoSQL par exemple). Une base de données peut être localisée dans un même lieu et sur un même support informatisé, ou répartie sur plusieurs machines à plusieurs endroits." (Wikipédia)
Les bases de données permettent de mettre en place des relations et structures plus complexes que les seuls fichiers de données. Voici quelques types de bases de données parmi les plus utilisées :
Un système de gestion de base de données (abr. SGBD) est un logiciel système servant à stocker, à manipuler ou gérer, et à partager des données dans une base de données, en garantissant la qualité, la pérennité et la confidentialité des informations, tout en cachant la complexité des opérations. (Wikipédia)
Nous présentons ici quelques SGDB.
Nous présentons ici les principales étapes de la mise en place d'une base de données.
Voici quelques outils pour aider à réaliser un diagramme de classe UML pour la modélisation de systèmes informatiques orientée objet.
Le choix d'un format de fichier de données détermine les opérations possibles qu'on peut effectuer sur celles-ci, mais ne détermine pas comment décrire, identifier et structurer l'information de façon optimale.
Se basant sur des formats de données tels que RDF ou XML, les normes de description indiquent comment structurer l'information (en classes, sous-classes, éléments et les liens logiques entre eux), quelles métadonnées sont nécessaires pour décrire les fichiers, données et documents numériques numériques, et comment encoder ces métadonnées afin d'assurer leur préservation, leur utilisation et leur échange entre les systèmes d'information. Nous présentons plus bas quelques normes de description utiles pour la description de documents et de données.
Dublin Core™ : vocabulaire du web sémantique utilisé pour exprimer les données dans un modèle RDF.
|
|
EAD (Encoded Archival Description) : norme XML pour la description des documents d'archives.
|
|
METS (Metadata Encoding & Transmission Standard) : schéma pour l'encodage de métadonnées pour les objets d'une bibliothèque numérique. | |
MODS (Metadata Object Description Schema) : vocabulaire XML de description bibliographique développé par la Bibliothèque du Congrès des États-Unis. | |
Text Encoding Initiative (TEI) : normes pour la représentation de textes en format numérique. Spécifie les méthodes d'encodages pour faciliter la lecture des textes par des logiciels dans le domaine des sciences humaines.
|
|
PREMIS Data Dictionary for Preservation Metadata : norme internationale des métadonnées pour la préservation des objets numériques.
|
Les thésaurus et vocabulaires contrôlés permettent d'identifier et de classer de façon précise et univoque des éléments d'un champ disciplinaire afin de normaliser la description des éléments et le lien hiérarchique entre eux, et ainsi de mieux partager les informations et connaissances, facilitant la normalisation et le partage d'information et de connaissance dans un domaine précis.
Dernière mise à jour : mai 2024
La gestion des données et documents durant toute la durée du projet et même une fois celui-ci terminé est un aspect à considérer surtout dans le cas de projets complexes, de longue haleine ou impliquant plusieurs collaborateurs. Nous proposons ici quelques pistes de réflexion et outils pour vous aider.
Il existe une panoplie d'outils pour vous aider à mieux gérer votre projet et à mieux collaborer.
Le logiciel gratuit et open source Zotero permet d'organiser et de classer des ressources documentaires (articles, livres, archives, etc.), mais aussi d'autres types de ressources telles que des liens web ou une collection de PDF. C'est un outil pratique pour gérer la documentation d'un projet de recherche en humanités numériques grâce à ses fonctionnalités de classification, d'annotation, d'indexation et d'export d'informations.
Pour extraire les références de Zotero vers le format CSV (Excel) :
" La gestion des données de recherche désigne les processus appliqués tout au long du cycle de vie d'un projet de recherche pour guider la collecte, la documentation, le stockage, le partage et la conservation des données de recherche "
(Gouvernement du Canada, Foire aux questions, Politique des trois organismes sur la gestion des données de recherche)