Icône | Type et exemples de documents | Formats de fichiers |
---|---|---|
Textuel : articles, livres, archives, thèses, courriels, etc. | pdf, odt, txt, doc, rtf, etc. | |
Iconographique : images vectorielles ou matricielles, photographies, graphiques, etc. | jpeg, png, tiff, pdf, svg, etc. | |
Audiovisuel : films, vidéos, musique, archives orales, etc. | mpeg,mov, mp3, wav, etc. | |
Géospatial : cartes et plans, données de système d'information géographique (SIG), données cartographiques, etc. | dxf, tiff, gml, etc. | |
Données : statistiques, données de recherche, données démographiques, données financières, données extraites de réseaux sociaux, etc. | xlsx, csv, xml, sql, etc. | |
Multimédia : sites web, jeux vidéo, etc. | html, mhtml, warc, etc. | |
3d : modélisation 3d, données CAD pour dessin assisté par ordinateur, etc. | obj, mtl |
Le Service informatique offre des formations sur plusieurs logiciels, notamment Python, SPSS, R/RStudio et NVivo. Consultez le calendrier des séminaires informatiques pour en savoir plus.
Le Bureau des initiatives numériques (BIN) offre un service d’accompagnement aux membres de la communauté de recherche en sciences humaines et sociales qui veulent utiliser des méthodes computationnelles dans leurs projets de recherche. Ses services (payants) comprennent entre autres l’aide à la cueillette des données, l’assistance pour le stockage des données et l’analyse de données.
Une panoplie d'outils et de méthodes d'analyse des données, qui vont du plus simples au plus complexes, peuvent vous aider à analyser, comparer, transformer, coupler et corréler les données. Nous présentons dans cette section un tour d'horizon de quelques méthodes et outils classés par types de données parmi les plus utilisés.
Les méthodes d'analyse de données sont adaptées aux types de données analysées, aux objectifs et domaines de recherche. Il est impossible d'en lister tous les types. L'idée est ici d'offrir un aperçu de quelques méthodes possibles qui n'a pas la prétention d'être exhaustif. Notons qu'il est possible de combiner plusieurs types de méthodes d'analyse dans un même projet, chaque type d'analyse correspondant à un aspect (texte, temporalité, espace, nombre, etc.).
Les données textuelles peuvent être analysées de différentes façon. Nous en présentons ici quelques unes.
Références :
Références :
L'infométrie, la scientométrie et la bibliométrie utilisent des traitements de l'information par des méthodes statistiques mathématiques. Définitions :
Références :
Références :
Une série chronologique (ou série temporelle ou time serie en anglais) correspond à une séquence de données en ordre chronologique. L'évolution de la température dans le temps, la fluctuation du cours de la bourse à travers les années ou la variation du taux de natalité sont des exemples de séries chronologiques.
Références :
"L'analyse spatiale est une approche géographique qui étudie les localisations et les interactions spatiales en tant que composantes actives des fonctionnements sociétaux. [...] Il s'agit de prendre en compte un ensemble complexe de données physiques et humaines pour analyser les distributions spatiales de divers phénomènes [...]." (Wikipédia)
Le choix des logiciels d'analyse des données dépend du type d'analyse et du type de données. Le tableau suivant propose plusieurs outils d'analyse et identifie quels types de données sont supportées. D'autres outils sont aussi disponibles dans la section Visualiser.
Outil | Types de contenus | Description | Accès |
---|---|---|---|
AntConc |
Logiciel d'analyse de corpus pour la concordance et l'analyse de texte.
|
Gratuit | |
ARCH | ARCH (Archives Research Compute Hub) : Plateforme qui permet d'exploiter les corpus d'Internet Archive avec des outils d'analyse. Service disponible sur inscription ici. | Gratuit. | |
CATMA | Solution en ligne et collaborative de codage de textes en vue d'analyses qualitative ou quantitative. | Plateforme gratuite en ligne | |
Corpus tools |
|
Plusieurs logiciels pour annoter, migrer et analyser des données linguistiques. | Gratuit et open source |
DtmVic | Logiciel DtmVic (Data and Text Mining: Visualisation, Inférence, Classification). Logiciel pour le traitement des enquêtes comportant des questions ouvertes, les explorations de textes. | Gratuit | |
GNU PSPP | Alternative libre et open source du logiciel SPSS. | Gratuit et open source | |
Google NGram Viewer | Révèle les tendances de mots ou phrase dans l'ensemble du corpus de l'initiative de numérisation Google Livres. | Gratuit | |
ImageJ | Logiciel pour l'analyse scientifique automatique d'images. | Gratuit et open source | |
InfraNodus | Analyse et visualisation par réseau de données textuelles (PDF, textes, CSV, etc.). | Logiciel avec abonnement payant | |
Iramuteq | Logiciel d'analyse statistique sur des corpus texte et sur des tableaux individus/caractères, analyse multidimensionnelle de textes et de questionnaires. | Logiciel libre | |
Applications pour l'exploration de données avec les médias sociaux et les réseaux sociaux, les textes et autres outils de visualisation. | Applications en ligne, gratuit, sans inscription et open source | ||
nodegoat | Plusieurs outils pour la création de modèles de données et pour l'analyse et la publication de données relationnelles, spatiales et chronologiques. |
Environnement web gratuit sur inscription ou Installation sur serveurs locaux |
|
Neo4j | Outils sur base de données orientée graphe pour créer des applications intelligentes et des workflows d'apprentissage automatique. | Logiciel et stockage infonuagique gratuit pour les petits projets. Options payantes pour plus gros projets. | |
NVivo |
Logiciel de codage de corpus (texte, image, vidéo et web) et d'analyse qualitative basé sur le principe d’analyse décontextualisation-recontextualisation du corpus qui consiste à identifier des extraits de textes puis à regrouper par catégories ou thèmes tous les extraits traitant d’un sujet en particulier.
|
Logiciel propriétaire payant Disponible pour les étudiants et chercheurs à la logithèque de l'UQAM |
|
OpenCV | OpenCV (Open Source Computer Vision Library) est une bibliothèque logicielle pour la visualisation et l'apprentissage machine d'images. | Open source | |
Pajek |
Analyse et visualisation de réseaux.
|
Gratuit et libre | |
Python |
Un langage de programmation particulièrement utilisé comme langage de script pour automatiser des tâches simples mais fastidieuses ou comme langage de développement de prototype, particulièrement répandu dans le monde scientifique, et possède de nombreuses bibliothèques optimisées destinées au calcul numérique.
|
Gratuit et open source | |
QDA Miner |
Logiciel de codage de corpus (texte et image) et d’analyse qualitative conçu pour la recherche avec méthodes mixtes. Fonctionnalités : codage, annotation, exploration et analyse de documents et d’images. Intégration avec SimStat (outil d’analyse statistique), et WordStat (module d’analyse de contenu et d’exploration de textes).
|
Logiciel propriétaire payant Disponible pour les étudiants et chercheurs à la logithèque de l'UQAM Version allégée gratuite QDA Miner lite. |
|
QualCoder |
|
Logiciel de codage de corpus (texte, image et vidéo) pour l'analyse qualitative. | Gratuit et open source |
R |
Langage de programmation et environnement logiciel pour l'analyse statistique, la manipulation de données et la création de graphiques.
|
Gratuit et open source | |
RStudio |
Un logiciel libre offrant un environnement de développement gratuit et multiplateforme pour R. Facilite l'utilisation de R avec plusieurs fonctionnalités (éditeur de script; édition, exécution et affichage
|
Gratuit et open source |
|
SPSS |
Fonctionnalités : analyse statistique, gestion des données (sélection de cas, reformatage de fichier, création de données dérivées), documentation des données (dictionnaire de métadonnées sauvegardé avec les données).
|
Logiciel propriétaire payant Disponible pour les étudiants et chercheurs à la logithèque de l'UQAM |
|
Plateforme pour visualiser, créer et éditer des corpus avec un balisage textuel et des annotations linguistiques. | Gratuit et open source | ||
Tensor Flow |
|
TensorFlow est une plate-forme dédiée au machine learning, un écosystème d'outils, de bibliothèques et de ressources communautaires permettant aux chercheurs d'avancer dans le domaine du machine learning, et aux développeurs de créer et de déployer facilement des applications qui exploitent cette technologie. | Open source |
TM tools explorer | Une liste de trois cents outils spécialisés dans le traitement automatique du langage et l'exploration de texte | Gratuit | |
Tropes | Logiciel d'analyse sémantique de textes. | Gratuit | |
Tropy | Logiciel pour organiser, décrire et annoter un corpus d'images. | Gratuit | |
TXM | La plateforme TXM combine des techniques puissantes et originales pour l’analyse de corpus de textes structurés et annotés au moyen de composants modulaires et open-source. | Gratuit | |
UDPipe | Outil en ligne gratuit pour traiter les données textuelles en linguistique. Découpe de textes en unités lexicales élémentaires (tokénisation), étiquetage (tagging), lemmatisation et analyse par structure grammaticale (dependency parsing). | Gratuit, en ligne | |
VOSviewer | Logiciel et site web d'extraction et de visualisation de données bibliométriques. | Gratuit |
Dernière mise à jour : Février 2022