Aller au contenu principal

Humanités numériques

Le présent guide propose plusieurs ressources utiles aux étudiant.e.s, chercheur.se.s et professeur.e.s pour leurs travaux et projets de recherche en lien avec les humanités numériques.

Analyser les données

Lier et relier, manipuler, transformer les données

Une panoplie d'outils et de méthodes d'analyse des données, qui vont du plus simples au plus complexes, peuvent vous aider à analyser, comparer, transformer, coupler et corréler les données. Nous présentons dans cette section un tour d'horizon de quelques méthodes et outils classés par types de données parmi les plus utilisés.

Méthodes d'analyse en humanités numériques

Les méthodes d'analyse de données sont adaptées aux types de données analysées, aux objectifs et domaines de recherche. Il est impossible d'en lister tous les types. L'idée est ici d'offrir un aperçu de quelques méthodes possibles qui n'a pas la prétention d'être exhaustif. Notons qu'il est possible de combiner plusieurs types de méthodes d'analyse dans un même projet, chaque type d'analyse correspondant à un aspect (texte, temporalité, espace, nombre, etc.).


Analyse de données textuelles

Les données textuelles peuvent être analysées de différentes façon. Nous en présentons ici quelques unes.

  • Analyse d’un corpus par son annotation : analyse qualitative basée sur l'analyse de contenu et l'ajout par le chercheur de métadonnées sur des corpus de textes écrits ou d'enregistrements audiovisuels.
  • "La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining." (Wikipédia)
  • Traitement automatique des langues (logométrie, textométrie, lexicométrie, etc.) : analyse quantitative, « traitement (semi) automatique global du texte dans toutes ses dimension: graphiques, lemmatisées, grammaticalisées. L’analyse [porte] sur toutes les unités linguistiques de la lettre aux isotopies, en passant par les n-grams, les mots, les lemmes, les cooccurrences, les codes grammaticaux, les bi-codes ou les enchaînements syntaxiques » (Mayaffre 2010, 22).

Références :


Analyse d'image

"L'analyse d'image est la reconnaissance des éléments et des informations contenus dans une image [fixe ou en mouvement]. Elle peut être automatisée lorsque l'image est enregistrée sous forme numérique, au moyen d'outils informatiques." (Wikipédia) L'analyse d'image peut être manuelle (et qualitative) ou encore semi-automatique à l'aide d'algorithmes et d'intelligences artificielles. Voir les logiciels proposés dans l'onglet ci-contre.
 

Références :


Infométrie/Scientométrie/Bibliométrie

L'infométrie, la scientométrie et la bibliométrie utilisent des traitements de l'information par des méthodes statistiques mathématiques. Définitions :

  • Infométrie : Analyse quantitative de l'information de l’ensemble de la société jugée caractéristique de l'état de la science et de la technologie.
  • Scientométrie : Analyse des activités de recherche dans le domaine des sciences et des technologies.
  • Bibliométrie : Analyse quantitative des données liées aux publications (par ex., le nombre de citations d'un livre, le nombre de publications d'un groupe de chercheurs, les collaborations entre les chercheurs dans un domaine de recherche, etc.).

Références :


Analyse de réseau

  • Comme méthode d'analyse : "L'analyse de réseau désigne un ensemble de méthodes, de notions et de concepts fondés sur la théorie des graphes pour étudier un phénomène relationnel donné [...] Un réseau est constitué d'un ensemble fini et non vide de points, symbolisant des acteurs (individus, groupes, institutions, textes, etc.) et d'un ensemble fini et éventuellement vide de lignes symbolisant les relations entre ces acteurs" (Beauguitte, 2016).
  • Comme objet d'étude : "L'analyse d'un réseau désigne l'étude d'un réseau donné, matériel ou immatériel." (Beauguitte, 2016). L'étude des réseaux sociaux ou l'étude des communication ou des liens de parentés entre des personnes, par exemple.

Références :


Analyse de séries chronologiques

Une série chronologique (ou série temporelle ou time serie en anglais) correspond à une séquence de données en ordre chronologique. L'évolution de la température dans le temps, la fluctuation du cours de la bourse à travers les années ou la variation du taux de natalité sont des exemples de séries chronologiques.

Références :


Analyse spatiale

"L'analyse spatiale est une approche géographique qui étudie les localisations et les interactions spatiales en tant que composantes actives des fonctionnements sociétaux. [...] Il s'agit de prendre en compte un ensemble complexe de données physiques et humaines pour analyser les distributions spatiales de divers phénomènes [...]." (Wikipédia

Quels logiciels choisir?

Le choix des logiciels d'analyse des données dépend du type d'analyse et du type de données. Le tableau suivant propose plusieurs outils d'analyse et identifie quels types de données sont supportées. D'autres outils sont aussi disponibles dans la section Visualiser.

Outil Types de contenus Description Accès
AntConc

Logiciel d'analyse de corpus pour la concordance et l'analyse de texte.

Gratuit
CATMA

Solution en ligne et collaborative de codage de textes en vue d'analyses qualitative ou quantitative. Plateforme gratuite en ligne
Corpus tools

Plusieurs logiciels pour annoter, migrer et analyser des données linguistiques. Gratuit et open source
DtmVic Logiciel DtmVic (Data and Text Mining: Visualisation, Inférence, Classification). Logiciel pour le traitement des enquêtes comportant des questions ouvertes, les explorations de textes. Gratuit
GNU PSPP Alternative libre et open source du logiciel SPSS. Gratuit et open source
Google NGram Viewer Révèle les tendances de mots ou phrase dans l'ensemble du corpus de l'initiative de numérisation Google Livres. Gratuit
ImageJ Logiciel pour l'analyse scientifique automatique d'images. Gratuit et open source
InfraNodus Analyse et visualisation par réseau de données textuelles (PDF, textes, CSV, etc.). Logiciel avec abonnement payant
Iramuteq Logiciel d'analyse statistique sur des corpus texte et sur des tableaux individus/caractères, analyse multidimensionnelle de textes et de questionnaires. Logiciel libre

Nocode functions

Applications pour l'exploration de données avec les médias sociaux et les réseaux sociaux, les textes et autres outils de visualisation. Applications en ligne, gratuit, sans inscription et open source
nodegoat Plusieurs outils pour la création de modèles de données et pour l'analyse et la publication de données relationnelles, spatiales et chronologiques.

Environnement web gratuit sur inscription ou

Installation sur serveurs locaux

Neo4j Outils sur base de données orientée graphe pour créer des applications intelligentes et des workflows d'apprentissage automatique. Logiciel et stockage infonuagique gratuit pour les petits projets. Options payantes pour plus gros projets.
NVivo

Logiciel de codage de corpus (texte, image, vidéo et web) et d'analyse qualitative basé sur le principe d’analyse décontextualisation-recontextualisation du corpus qui consiste à identifier des extraits de textes puis à regrouper par catégories ou thèmes tous les extraits traitant d’un sujet en particulier.

Logiciel propriétaire payant

Disponible pour les étudiants et chercheurs à la logithèque de l'UQAM

OpenCV OpenCV (Open Source Computer Vision Library) est une bibliothèque logicielle pour la visualisation et l'apprentissage machine d'images. Open source
Pajek

Analyse et visualisation de réseaux.

Gratuit et libre
Python

Un langage de programmation particulièrement utilisé comme langage de script pour automatiser des tâches simples mais fastidieuses ou comme langage de développement de prototype, particulièrement répandu dans le monde scientifique, et possède de nombreuses bibliothèques optimisées destinées au calcul numérique.

Gratuit et open source
QDA Miner  

Logiciel de codage de corpus (texte et image) et d’analyse qualitative conçu pour la recherche avec méthodes mixtes.

Fonctionnalités : codage, annotation, exploration et analyse de documents et d’images. Intégration avec SimStat (outil d’analyse statistique), et WordStat (module d’analyse de contenu et d’exploration de textes).

Logiciel propriétaire payant

Disponible pour les étudiants et chercheurs à la logithèque de l'UQAM

Version allégée gratuite QDA Miner lite.

QualCoder

Logiciel de codage de corpus (texte, image et vidéo) pour l'analyse qualitative. Gratuit et open source
R

Langage de programmation et environnement logiciel pour l'analyse statistique, la manipulation de données et la création de graphiques.

Gratuit et open source
RStudio

Un logiciel libre offrant un environnement de développement gratuit et multiplateforme pour R. Facilite l'utilisation de R avec plusieurs fonctionnalités (éditeur de script; édition, exécution et affichage
simultané du code, gestion des extensions, etc.).

Gratuit et open source

SPSS

Fonctionnalités : analyse statistique, gestion des données (sélection de cas, reformatage de fichier, création de données dérivées), documentation des données (dictionnaire de métadonnées sauvegardé avec les données).

Logiciel propriétaire payant

Disponible pour les étudiants et chercheurs à la logithèque de l'UQAM

TEITOK

Plateforme pour visualiser, créer et éditer des corpus avec un balisage textuel et des annotations linguistiques. Gratuit et open source
Tensor Flow

TensorFlow est une plate-forme dédiée au machine learning, un écosystème d'outils, de bibliothèques et de ressources communautaires permettant aux chercheurs d'avancer dans le domaine du machine learning, et aux développeurs de créer et de déployer facilement des applications qui exploitent cette technologie. Open source
TM tools explorer Une liste de trois cents outils spécialisés dans le traitement automatique du langage et l'exploration de texte Gratuit
Tropes Logiciel d'analyse sémantique de textes. Gratuit
Tropy Logiciel pour organiser, décrire et annoter un corpus d'images. Gratuit
TXM La plateforme TXM combine des techniques puissantes et originales pour l’analyse de corpus de textes structurés et annotés au moyen de composants modulaires et open-source. Gratuit
UDPipe Outil en ligne gratuit pour traiter les données textuelles en linguistique. Découpe de  textes en unités lexicales élémentaires (tokénisation), étiquetage (tagging), lemmatisation et analyse par structure grammaticale (dependency parsing). Gratuit, en ligne
VOSviewer Logiciel et site web d'extraction et de visualisation de données bibliométriques. Gratuit

Dernière mise à jour : Février 2022