banner
Centre d'Information
Livraison instantanée

Turnitin dit que son détecteur de triche IA n'est pas toujours fiable

Jun 03, 2023

Cet article est un aperçu de la newsletter The Tech Friend. Inscrivez-vous ici pour le recevoir dans votre boîte de réception tous les mardis et vendredis.

Il s'avère que nous ne pouvons pas détecter de manière fiable l'écriture à partir de programmes d'intelligence artificielle comme ChatGPT. C'est un gros problème, surtout pour les enseignants.

Pire encore, les scientifiques disent de plus en plus qu'il est tout simplement impossible d'utiliser un logiciel pour repérer avec précision l'IA.

La dernière preuve : Turnitin, une grande société de logiciels éducatifs, a déclaré que le détecteur de triche IA qu'il exécute sur plus de 38 millions d'essais d'étudiants depuis avril a plus d'un problème de fiabilité qu'il ne le suggérait initialement. Turnitin - qui attribue un pourcentage de score "généré par l'IA" à chaque article étudiant - procède à quelques ajustements, notamment en ajoutant de nouveaux avertissements sur les types de résultats limites les plus sujets aux erreurs.

J'ai écrit pour la première fois sur le détecteur d'IA de Turnitin ce printemps lorsque les inquiétudes concernant l'utilisation de l'IA par les étudiants pour tricher ont laissé de nombreux éducateurs réclamer des moyens de le dissuader. À ce moment-là, la société a déclaré que sa technologie avait un taux inférieur à 1% du type d'erreur le plus problématique: les faux positifs, où l'écriture de vrais étudiants est signalée à tort comme de la triche. Maintenant, dit Turnitin, au niveau phrase par phrase – une mesure plus étroite – son logiciel signale à tort 4% de l'écriture.

Mon enquête a également révélé que les fausses détections constituaient un risque important. Avant son lancement, j'ai testé le logiciel de Turnitin avec de vrais écrits d'étudiants et avec des essais que des étudiants volontaires ont aidé à générer avec ChatGPT. Turnitin a identifié plus de la moitié de nos 16 échantillons au moins en partie de manière incorrecte, notamment en disant que la dissertation entièrement écrite par un étudiant a été écrite en partie avec l'IA.

Les enjeux de la détection de l'IA peuvent être particulièrement élevés pour les enseignants, mais ils ne sont pas les seuls à chercher des moyens de le faire. Il en va de même pour les entreprises de cybersécurité, les responsables électoraux et même les journalistes qui doivent identifier ce qui est humain et ce qui ne l'est pas. Vous aussi, vous voudrez peut-être savoir si cet e-mail visible d'un patron ou d'un politicien a été écrit par AI.

Il y a eu un flot de programmes de détection d'IA sur le Web ces derniers mois, notamment ZeroGPT et Writer. Même OpenAI, la société derrière ChatGPT en fait un. Mais il y a un nombre croissant d'exemples de ces détecteurs qui se trompent - y compris un qui prétend que le prologue de la Constitution a été écrit par AI. (Pas très probable, à moins que le voyage dans le temps ne soit désormais possible ?)

Ce qu'il faut retenir : méfiez-vous de traiter tout détecteur d'IA comme un fait. Dans certains cas en ce moment, c'est un peu mieux qu'une supposition aléatoire.

Un taux d'erreur de 4, voire 1 % peut sembler faible, mais chaque fausse accusation de tricherie peut avoir des conséquences désastreuses pour un élève. Depuis que j'ai publié ma chronique d'avril, j'ai reçu des notes d'élèves et de parents bouleversés par ce qu'ils disaient être de fausses accusations. (Mon email est toujours ouvert.)

Dans un long article de blog la semaine dernière, la directrice des produits de Turnitin, Annie Chechitelli, a déclaré que la société souhaitait être transparente sur sa technologie, mais qu'elle n'avait pas renoncé à la déployer. Elle a déclaré que pour les documents qui, selon son logiciel de détection, contiennent plus de 20 % d'écriture IA, le taux de faux positifs pour l'ensemble du document est inférieur à 1 %. Mais elle n'a pas précisé quel est le taux d'erreur le reste du temps – pour les documents que son logiciel pense contenir moins de 20 % d'écriture IA. Dans de tels cas, Turnitin a commencé à mettre un astérisque à côté des résultats "pour attirer l'attention sur le fait que le score est moins fiable".

"Nous ne pouvons pas atténuer complètement le risque de faux positifs étant donné la nature de l'écriture et de l'analyse de l'IA, il est donc important que les éducateurs utilisent le score de l'IA pour entamer un dialogue significatif et percutant avec leurs élèves dans de tels cas", a écrit Chechitelli.

La question clé est : quelle est la quantité d'erreur acceptable dans un détecteur d'IA ?

Une nouvelle recherche pré-imprimée du professeur d'informatique Soheil Feizi et de ses collègues de l'Université du Maryland révèle qu'aucun détecteur d'IA accessible au public n'est suffisamment fiable dans des scénarios pratiques.

"Ils ont un taux de faux positifs très élevé et peuvent être facilement contournés", m'a dit Feizi. Par exemple, a-t-il dit, lorsque l'écriture de l'IA est exécutée via un logiciel de paraphrase, qui fonctionne comme une sorte de thésaurus automatisé, les systèmes de détection de l'IA ne valent guère mieux qu'une supposition aléatoire. (J'ai trouvé le même problème dans mes tests de Turnitin.)

Il craint également que les détecteurs d'IA soient plus susceptibles de signaler le travail des étudiants pour qui l'anglais est une langue seconde.

Feizi n'a pas testé le logiciel de Turnitin, qui n'est disponible que pour les établissements d'enseignement payants. Une porte-parole de Turnitin a déclaré que les capacités de détection de Turnitin "sont peu similaires à celles qui ont été testées dans cette étude".

Feizi a déclaré que si Turnitin voulait être transparent, il devrait publier ses résultats avec une précision totale et permettre aux chercheurs indépendants de mener leurs propres recherches sur son logiciel. Une analyse juste, a-t-il dit, devrait utiliser de vrais essais écrits par des étudiants sur différents sujets et styles d'écriture, et aborder les échecs de chaque sous-groupe ainsi que dans l'ensemble.

Nous n'accepterions pas une voiture autonome qui s'écrase 4% - voire 1% - du temps, a déclaré Feizi. Il propose donc une nouvelle base pour ce qui devrait être considéré comme une erreur acceptable dans un détecteur d'IA utilisé sur les étudiants : un taux de faux positifs de 0,01 %.

Quand cela arrivera-t-il ? "À ce stade, c'est impossible", a-t-il déclaré. "Et comme nous avons des améliorations dans les modèles de grande langue, il deviendra encore plus difficile de se rapprocher de ce seuil." Le problème, a-t-il dit, est que la distribution de ce à quoi ressemble le texte généré par l'IA et le texte généré par l'homme convergent l'une vers l'autre.

"Je pense que nous devrions simplement nous habituer au fait que nous ne serons pas en mesure de dire de manière fiable si un document est soit écrit par l'IA - ou partiellement écrit par l'IA, soit édité par l'IA - ou par des humains", a déclaré Feizi. "Nous devrions adapter notre système éducatif pour ne pas contrôler l'utilisation des modèles d'IA, mais plutôt l'adopter pour aider les étudiants à l'utiliser et à en tirer des leçons."

C'est l'un des fléaux de la vie en ligne : avez-vous déjà été induit en erreur par ce que vous soupçonnez d'être un faux avis en ligne ? Je parle des types de critiques que vous trouvez sur Amazon qui recommandent un produit qui s'effondre après l'avoir acheté - ou du type que vous trouvez sur Yelp qui fait l'éloge d'un médecin qui s'avère avoir une manière de chevet totalement dégueulasse ?

Si vous avez une histoire à raconter sur les critiques louches, j'aimerais connaître votre expérience. Envoyez un e-mail à [email protected].

Help Desk est une destination conçue pour les lecteurs qui cherchent à mieux comprendre et maîtriser la technologie utilisée au quotidien.

Prenez le contrôle : Inscrivez-vous à la newsletter The Tech Friend pour obtenir des conseils et des discussions directes sur la façon de faire de votre technologie une force pour le bien.

Conseils techniques pour vous faciliter la vie : 10 trucs et astuces pour personnaliser iOS 16 | 5 conseils pour prolonger la durée de vie des piles de vos gadgets | Comment reprendre le contrôle d'un compte de réseau social piraté | Comment éviter de tomber dans le piège et de répandre de fausses informations en ligne

Données et confidentialité : un guide pour chaque paramètre de confidentialité que vous devez modifier maintenant. Nous avons parcouru les paramètres des services les plus populaires (et problématiques) pour vous donner des recommandations. Google | Amazone | Facebook | Venmo | pomme | Android

Poser une question : Envoyez au service d'assistance vos questions technologiques personnelles.