Aller au contenu principal

ChatGPT et intelligence artificielle générative

Utilisation de ChatGPT en contexte universitaire

Les outils d'intelligence artificielle comme ChatGPT comportent leur lot d'enjeux sociaux et humains à en prendre en considération. Souvent méconnus, voire cachés, ces enjeux constituent en quelque sorte la partie immergée de l'iceberg, comme l'illustre cette image tirée d'une présentation de la chercheuse en intelligence artificielle Sasha Luccioni :

 

Iceberg

Impacts de l’IA générative est une adaptation et traduction (avec l'aimable permission de l'autrice) de :

Luccioni, S. (2023, March). Generative AI Models: History, Costs and Risks. [Présentation PowerPoint]. Google. https://docs.google.com/presentation/d/1FRoyzdodKQ7-5rK--gZFFzK_-kvfhzxJQDYxpnA-6jE/ Licence CC-BY-NC-ND

Principaux enjeux

Lorsqu'il est question de grands modèles de langage, on peut retenir la définition qu'Emilio Ferrara donne du biais comme étant :

[...] la présence de déformations systématiques, d'erreurs d'attribution ou de distorsions factuelles qui ont pour effet de favoriser certains groupes ou idées, de perpétuer des stéréotypes ou de faire des suppositions erronées sur la base de schémas appris. (2023, p. 2; notre traduction)

La présence de biais repose sur plusieurs facteurs. Il y a d'abord le corpus choisi pour entrainer le modèle qui comporte des biais au départ. Puis, les algorithmes employés pour traiter les données, les humains (ex. personnes modératrices et utilisatrices) et enfin les décisions des propriétaires, tant politiques que dans la conception, peuvent introduire différents types de biais (Ferrara, 2023).

D'abord, en fonction des contenus, surviendront inévitablement des biais linguistiques (ex. avec la prédominance de l'anglais).

Puis, lorsque certains groupes démographiques sont surreprésentés et d'autres sous-représentés, il risque fort de survenir :

Enfin, suivant leur comportement dans le temps, les personnes utilisatrices pourraient renforcir certains biais; on retrouvera alors :

  • des biais de confirmation; ex. confirmant des opinions, des points de vue ou des croyances préexistantes.

 

Références

Biddle, S. (2022, December 8). The Internet’s New Favorite AI Proposes Torturing Iranians and Surveilling Mosques. The Intercepthttps://theintercept.com/2022/12/08/openai-chatgpt-ai-bias-ethics/

Ferrara, E. (2023). Should chatgpt be biased? Challenges and risks of bias in large language models. arXiv. https://doi.org/10.48550/ARXIV.2304.03738

Getahun, H. (2023, January 16). ChatGPT could be used for good, but like many other AI models, it's rife with racist and discriminatory bias. Insiderhttps://www.insider.com/chatgpt-is-like-many-other-ai-models-rife-with-bias-2023-1

Nous savons que le corpus d'entrainement de GPT provient du Web et comprend donc aussi violence, sexisme, racisme et homophobie pour ne nommer que quelques exemples. Comme l'on fait les médias socionumériques avant, OpenAI (la compagnie propriétaire de ChatGPT) cherche à retirer ces contenus à l'aide de l'intelligence artificielle. Pour qu'une IA reconnaisse du contenu toxique, il lui faut une banque à laquelle se référer. Ce travail d'étiquetage qui implique de lire sans cesse la description d'horreurs, ce sont des travailleurs du Kenya qui l'ont entrepris dès 2021 pour un salaire horaire se situant entre 1,32$ et 2$ après impôt. Le tout dans des conditions précaires et générant des traumatismes chez ces travailleurs.

Des contenus extraits du Web, indispensables à la réalisation de ChatGPT, OpenAI n'en a pas rémunéré les producteurs, c'est-à-dire les particuliers, les propriétaires de sites Web et les entreprises. Rappelons qu'OpenAI a récemment été évaluée à 29 milliards de dollars américains, soit plus du double de sa valeur en 2021. Il y a une contribution humaine capitale, volontairement maintenue dans l'ombre, derrière ces outils extrêmement lucratifs pour des intérêts privés.

 

Références

Casilli, A. A.. (2019). En attendant les robots : enquête sur le travail du clic. Éditions du Seuil. https://uqam-bib.on.worldcat.org/oclc/1082257507

Dzieza, J. (2023, June 20). AI Is a Lot of Work. New York Magazinehttps://nymag.com/intelligencer/article/ai-artificial-intelligence-humans-technology-business-factory.html

Le Ludec, C., Cornet, M. et Casilli, A. A. (2023). The problem with annotation. Human labour and outsourcing between France and Madagascar. Big Data & Society, 10(2), 20539517231188723. https://doi.org/10.1177/20539517231188723

Perrigo, B. (2023, January 18). OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic. Timehttps://time.com/6247678/openai-chatgpt-kenya-workers/

Rowe, N. (2023, August 2). ‘It’s destroyed me completely’: Kenyan moderators decry toll of training of AI models. The Guardianhttps://www.theguardian.com/technology/2023/aug/02/ai-chatbot-training-human-toll-content-moderator-meta-openai

Tan, R. et Cabato, R. (2023, August 28). Behind the AI boom, an army of overseas workers in ‘digital sweatshops’. The Washington Post. https://www.washingtonpost.com/world/2023/08/28/scale-ai-remotasks-philippines-artificial-intelligence/

Xiang, C. (2022, 6 December). AI Isn’t Artificial or Intelligent. Vicehttps://www.vice.com/en/article/wxnaqz/ai-isnt-artificial-or-intelligent

Le PDG d'OpenAI, Sam Altman, affirmait récemment dans une entrevue particulièrement craindre que les technologies comme ChatGPT « ne soient utilisées à des fins de désinformation à grande échelle ». On peut définir la désinformation comme étant l'utilisation délibérée d'informations avec l'objectif de manipuler ou de tromper. Si la désinformation existait bien avant l'arrivée des IA génératives, ces dernières permettent aux personnes mal intentionnées un important gain de temps et d'efficacité. Elles peuvent produire du contenu qui apparait d'une grande crédibilité et adapté à une audience ciblée, facilitant ainsi la diffusion d'idées, de fausses nouvelles voire de théories conspirationnistes.

 

Références

Arvanitis, L., Sadeghi, M. et Brewster, J. (2023, March). Misinformation Monitor: March 2023. NewsGuardhttps://www.newsguardtech.com/misinformation-monitor/march-2023/

Given, L. M. (2023, March 22). AI tools are generating convincing misinformation. Engaging with them means being on high alert. The Conversationhttps://theconversation.com/ai-tools-are-generating-convincing-misinformation-engaging-with-them-means-being-on-high-alert-202062

Lee, V. R. (2023, May 1). Generative AI is forcing people to rethink what it means to be authentic. The Conversationhttps://theconversation.com/generative-ai-is-forcing-people-to-rethink-what-it-means-to-be-authentic-204347

Bien que le corpus d'entrainement de GPT provienne de contenus librement accessibles sur le Web, son utilisation par OpenAI va également à l'encontre du concept que les experts en protection de la vie privée appellent l'intégrité contextuelle qui exige que les informations relatives à une personne ne soient pas diffusées en dehors de leur contexte de création d'origine. Et ces contenus peuvent comprendre des informations personnelles susceptibles d'apparaître dans les réponses de ChatGPT; factuelles ou fausses, elles pourraient engendrer des impacts négatifs sur les personnes concernées.

L'utilisation de ChatGPT requiert au préalable la création d'un compte chez OpenAI ou auprès d'un partenaire (Microsoft, Google ou Apple). Dans tous les cas, OpenAI collige votre nom, votre adresse courriel et votre numéro de téléphone cellulaire. Lorsque vous interagissez avec ChatGPT, d'autres informations personnelles sont recueillies à partir de votre appareil : le nom de votre appareil et le système d'exploitation, votre adresse IP, votre localisation géographique, le type de navigateur que vous employez, la date et l'heure ainsi que la durée de votre session. De plus, des témoins de navigation permettent de suivre votre activité sur son site. Ces divers éléments ont d'ailleurs placé l'entreprise en contrevenant au regard de la législation des pays de l'Union européenne, plus restrictive que les nôtres.

Par défaut, OpenAI enregistre aussi sur ses serveurs les transcriptions de toutes les informations que vous inscrivez dans la boîte de conversation. Il est donc fortement recommandé de ne verser ni inscrire aucune information personnelle ou confidentielle, tant sur vous-même que sur quelqu'un d'autre. Il vaut mieux y penser à deux fois. D'ailleurs, l'entreprise affirme que vos conversations serviront à entrainer les divers produits, présents et futurs, d'OpenAI. Enfin, la lecture de leurs politiques indique qu'OpenAI partagera ces informations sur vous notamment avec des partenaires commerciaux, c'est-à-dire des entreprises privées, mais on ignore lesquelles.

 

Références

Burgess, M. (2023, April 4). ChatGPT Has a Big Privacy Problem. Wiredhttps://www.wired.com/story/italy-ban-chatgpt-privacy-gdpr/

Gal, U. (2023, February 9). ChatGPT is a data privacy nightmare. If you’ve ever posted online, you ought to be concerned. The Conversationhttps://theconversation.com/chatgpt-is-a-data-privacy-nightmare-if-youve-ever-posted-online-you-ought-to-be-concerned-199283

OpenAI. (2023, June 23). Privacy policy. https://openai.com/policies/privacy-policy

OpenAI. (s.d.). What is ChatGPT? https://help.openai.com/en/articles/6783457-what-is-chatgpt (Consultée le 21 août 2023.)

Veale, K. (2023, April 13). Does ChatGPT Have Privacy Issues? Make Use Of. https://www.makeuseof.com/chatgpt-privacy-issues/

Vieira, S. (2023, 30 mars). Les risques de trop en dire à ChatGPT. Le Devoir. https://www.ledevoir.com/societe/787321/que-fait-chatgpt-avec-nos-donnees-personnelles

Le corpus d'entrainement de GPT provient de contenus du Web rédigés par nous tous, œuvres pour lesquels le consentement pour les utiliser n'a jamais demandé lorsque protégées par le droit d'auteur. Des regroupements de personnes écrivaines et artistes mais aussi programmeuses décrient l'absence d'attribution et de compensation pour l'utilisation de leurs créations originales et déplorent que les productions d'IA génératives pourraient concurrencer voire supplanter leurs œuvres (Samuelson, 2023, p.158). Les conséquences sont potentiellement très lourdes en matière de revenu pour les personnes créatrices ainsi que certaines entreprises comme les médias. Plusieurs recours en justice sont d'ailleurs intentés, notamment au Canada et aux États-Unis. Rappelons que l'industrie des IA génératives se compte en milliards de dollars et qu'elle repose avant tout sur le travail des personnes créatrices.

Enfin, il est donc fortement recommandé de ne verser aucun contenu protégé par le droit d'auteur tel qu'un article ou un plan de cours.

 

Références

Mckelvey, F. (2023, Aug. 28). Wait—Is ChatGPT Even Legal? The Walrushttps://thewalrus.ca/wait-is-chatgpt-even-legal/

Reisner, A. (2023, September 25). What I Found in a Database Meta Uses to Train Generative AI. The Atlantichttps://www.theatlantic.com/technology/archive/2023/09/books3-ai-training-meta-copyright-infringement-lawsuit/675411/

Samuelson, P. (2023). Generative ai meets copyright. Science381(6654). https://doi-org.proxy.bibliotheques.uqam.ca/10.1126/science.adi0656

On en a peut-être moins conscience parce que c'est intangible, mais chaque utilisation de ChatGPT a un impact négatif sur l'environnement. Il y a fort à parier que l'utilisation des technologies de l'IA ira de façon croissante, cela va donc devenir rapidement très préoccupant pour l'avenir. D'ailleurs, des acteurs du milieu se mobilisent pour faire changer cela.

Bien qu'il soit difficile de calculer l'empreinte carbone avec précision, notamment en raison de l'opacité de la part des compagnies, certains groupes de recherche (comme celui-ci) offrent des pistes pour nous aider à l'estimer. Pour obtenir un portrait complet, il faut tenir compte du coût énergétique de la fabrication l'équipement informatique (ex. métaux lourds), du stockage d'information, de la création du modèle ainsi que de l'utilisation en production.

Les centres de traitement des données nécessitent de grandes quantités d'électricité (de l'énergie pas toujours propre) et d'eau pour refroidir les serveurs. Une recherche a estimé que la création de GPT-3 aurait nécessité une consommation de 1287 mégawattheures (MWh) d'électricité et généré plus de 550 tonnes d'équivalent dioxyde de carbone; une autre étude récente évalue entre 3,5 et 5 millions de litres d'eau pour l'entrainement du modèle. Cette même étude estime qu'un court échange avec ChatGPT-3 (entre 20 et 50 invites de commande et leurs réponses) consomme 500 ml d'eau. Or, l'on sait que GPT-4 est entraîné sur environ 570 fois plus de paramètres que le GPT-3, ce qui laisse entendre une empreinte carbone qui ira fort probablement en s'intensifiant.

Enfin, selon la firme d'analyse stratégique Gartner, si les pratiques actuelles en matière d'IA restent inchangées, cette industrie consommera d'ici 2025 plus d'énergie que toute la main-d'œuvre humaine et pourrait représenter jusqu'à 3,5 % de la consommation mondiale d'électricité d'ici à 2030...

 

Références

Benyayer, L.-D. (2023, April 6). This is the AI balancing act: between its huge potential and growing emissions. World Economic Forumhttps://www.weforum.org/agenda/2023/04/balancing-ais-carbon-footprint-and-its-potential-for-transformative-positive-climate-impact/

Kneese, T. (2023, August 2). Climate Justice and Labor Rights | Part I: AI Supply Chains and Workflows [Rapport]. AI Now Institute https://ainowinstitute.org/general/climate-justice-and-labor-rights-part-i-ai-supply-chains-and-workflows

O’Brien, M. et Fingerhut, H. (2023, September 9). Artificial intelligence technology behind ChatGPT was built in Iowa — with a lot of water. The Associated Presshttps://apnews.com/article/chatgpt-gpt4-iowa-ai-water-consumption-microsoft-f551fde98083d17a7e8d904f8be822c4

Saenko, K. (2023, May 23). Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins. The Conversationhttps://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096

Stokel-Walker, C. (2023, August 1). Turns out there’s another problem with AI – its environmental toll. The Guardianhttps://www.theguardian.com/technology/2023/aug/01/techscape-environment-cost-ai-artificial-intelligence