Une fois votre corpus constitué, il est parfois nécessaire de préparer les données afin qu’elles puissent être plus facilement interprétables et manipulables. La préparation des données varie selon le corpus (les données ou documents utilisés comme base au projet), les types de données qu’on vise à obtenir et leurs usages futurs.
Avant de vous lancer dans l'analyse de vos données ou documents, assurez-vous que ceux-ci sont dans un format optimal pour votre recherche. Il est recommandé d'utiliser des formats de fichiers ouverts afin d’éviter la perte de données due à l’incompatibilité ou la désuétude du matériel et des logiciels. Pour en savoir plus à propos des formats :
Le format des données est un aspect à considérer pour assurer une utilisation optimale des données collectées selon les logiciels utilisés et les buts souhaités. Les formats non propriétaires et les plus courants sont recommandés afin de maximiser l'interopérabilité entre les logiciels et une plus grande pérennité des données.
Voici une liste de logiciels gratuits et open source que nous recommandons pour lire différents formats de fichiers ou encore les migrer vers d'autres formats.
Type et exemples de documents | Formats de fichiers | Logiciels de lecture/édition gratuits et open source |
---|---|---|
Textuel : articles, livres, archives, thèses, courriels, etc. | ODT, DOC, PDF, TXT, RTF, etc. | |
Iconographique : images vectorielles ou matricielles, photographies, graphiques, etc. | JPEG, PNG, TIFF, PDF, SVG, etc. | XnView |
Audiovisuel : films, vidéos, musique, archives orales, etc. | MPEG, MOV, MP3, WAV, etc. |
Vidéo : VLC Audio : Audacity |
Géospatial : cartes et plans, données de système d'information géographique (SIG), données cartographiques, etc. | DXF, GML, SHP, DBF, SHX, etc. | |
Données : statistiques, données de recherche, données démographiques, données financières, données extraites de réseaux sociaux, etc. | XLSX, CVS, XML, SQL, etc. | |
Hypermédia : sites web |
HTML, MHTML, WARC, etc. |
|
3d : modélisation 3d, données CAD pour dessin assisté par ordinateur, etc. |
OBJ, MTL, etc. |
Si vous travaillez à partir de données tabulaires (en format xlsx ou csv par exemple), des logiciels peuvent vous aider à nettoyer vos données.
La conversion (ou migration) d'un format à un autre est parfois nécessaire pour faciliter l'interopérabilité des données entre logiciels ou pour en faciliter la pérennité.
Certains projets en humanités numériques se basent sur des documents manuscrits anciens numérisés. L'océrisation et la transcription sont des techniques qui aident à transformer les caractères de texte en format image vers des formats textuels pour la recherche en plein texte.
Schéma de la conversion d'un format image vers un format de données textuelles
Source du document d'archives : Documents divers concernant Charles-E. Pouliot, 1824-1891, BAnQ Québec, Collection Centre d'archives de Québec, (03Q,P1000,S3,D1702).
L’océrisation, la reconnaissance optique des caractères (OCR), c’est la conversion des lettres du format image vers un format texte lisible par des logiciels ce qui permet ensuite de rechercher, traiter et manipuler plus aisément le contenu (par exemple, rechercher un mot ou expression dans un texte avec la commande CTRL+F). L’océrisation suit habituellement l’étape de numérisation des documents textuels, mais la plupart des articles et documents textuels en ligne déjà numérisés sont déjà océrisés.
Ressources pour l'océrisation et la transcription :
Certains projets en humanités numériques se basent sur des enregistrements sonores ou vidéo de paroles (archives orales, entrevues, entretiens, etc.). Dans ce cas, des logiciels peuvent aider à convertir les paroles enregistrées en format audio (fichiers .wav, .mp3 par exemple) vers des formats texte (.doc,. txt, par exemple).
Voici quelques logiciels gratuits qui permettent de transcrire manuellement le contenu d'un fichier audio en texte.
Notez que le travail de transcription manuelle peut être facilité grâce à un pédalier de transcription.
Voici quelques sites et logiciels offrant des fonctionnalités de transcription automatique du format audio ou vidéo vers le format texte.
Logiciels open source gratuits :
Logiciels propriétaires payants avec essai gratuit :
Logiciels propriétaires :
Si vous travaillez sur un projet impliquant la géomatique, la conversion de cartes en format image (JPEG, PNG, TIFF, etc.) en données géospatiales lisibles par système d'information géographique (SIG) pourrait être utile. Nous proposons ici d'utiliser le logiciel libre et open source QGIS pour ce faire.