Voici un meilleur problème - Groupe de compteurs d'argent de Nantong

Le contenu généré par l’IA commence à polluer Internet, les entreprises et les écoles à une échelle sans précédent. Dans certains cas, il peut être plus facile de détecter le texte humain que de signaler le contenu génératif de l’IA. À tout le moins, ils pourraient se compléter.

La croissance rapide du contenu généré par l’IA suscite des discussions sur la manière dont les fournisseurs d’IA peuvent améliorer les outils de détection du contenu généré par l’IA. Il s’agit d’une aspiration importante, mais ces types d’approches ne sont déjà pas à la hauteur du texte. Et pas seulement contre les « chapeaux noirs » qui tentent de violer la sécurité de l’IA ou de déstabiliser les démocraties. Les étudiants paresseux, les employés débordés, les spécialistes du marketing de produits sans scrupules et les ateliers clandestins d'étiquetage des données violeront facilement la plupart des mesures de protection avec une édition légère. Une bien meilleure approche pourrait consister à détecter les humains en utilisant une combinaison de métadonnées paralinguistiques et de cryptographie à clé publique.

Et des outils émergent qui peuvent aider à établir une chaîne de provenance pour cela. Comme je l'ai déjà écrit sur diginomica, les détecteurs de contenu IA pour la vidéo, l'audio et les images pourraient s'appuyer sur une longue histoire d'outils de filigrane numérique et de protection de la propriété intellectuelle. Cependant, les outils permettant de détecter automatiquement le texte généré par l’IA constituent un problème beaucoup plus difficile à résoudre. Les filigranes numériques sont beaucoup plus difficiles à intégrer dans du texte brut. Des progrès intéressants sont réalisés dans l’intégration de modèles statistiques, d’utilisations grammaticales étranges et même de conventions de ponctuation dans le texte. Un exemple est la tentative de Genius d'intégrer un motif étrange dans ses paroles de musique pour prouver que Google avait directement copié son contenu. Cette affaire n’a cependant pas réussi à remporter le procès.

Les systèmes scolaires du monde entier craignent que les récents progrès de l'IA générative alimentée par le Large Language Model (LLM) ne stimulent les efforts de triche des élèves. À long terme, le succès de cette entreprise pourrait donner naissance à une grande quantité de travailleurs incompétents, incapables de diriger efficacement les entreprises, les gouvernements et, bien sûr, d’enseigner. Mais ce n’est pas seulement un problème académique. Les gouvernements commencent à adopter des lois concernant les pratiques sans scrupules en matière d’évaluation des produits et des services. Le Royaume-Uni travaille actuellement sur un projet de loi sur les marchés numériques, la concurrence et la consommation qui interdit l'échange d'argent ou de biens gratuits contre la rédaction d'avis sur des produits. Ce n'est qu'une question de temps avant qu'une législation similaire ne soit étendue à des approches plus automatisées, telles que des spécialistes du marketing sans scrupules faisant tourner une foule de faux humains pour vanter les merveilles de leurs produits ou critiquer les offres concurrentes.

Et les entreprises d’étiquetage des données commencent à se débattre avec un réseau dispersé d’humains payés pour appliquer des étiquettes au contenu afin de former la prochaine génération d’IA. Ces éléments sont essentiels pour garantir que les futurs outils d’IA pourront mieux identifier les objets dans les images, contrôler le contenu toxique ou améliorer les performances d’une nouvelle génération d’applications d’IA d’entreprise. L'une des préoccupations est que les étiqueteurs de données surmenés pourraient se tourner vers ChatGPT et d'autres LLM. Bien que cela puisse être idéal pour la productivité des données et certaines tâches d’étiquetage des données. L’inconvénient est que la formation des LLM sur le contenu généré par l’IA pourrait conduire à l’effondrement du modèle d’IA, dans lequel les nouveaux modèles ne seraient pas aussi performants.

Il y a quelques années, le secteur bancaire était aux prises avec une fraude croissante favorisée par les nouveaux services en ligne. Pendant ce temps, une économie d'abonnement en pleine croissance était confrontée au partage de mots de passe, dans le cadre duquel les individus partageaient leurs mots de passe pour accéder à des services d'information de grande valeur avec leurs amis et leur famille. Il a été observé que de nombreuses informations sont intégrées non seulement dans le texte du mot de passe, mais également dans les métadonnées sur la manière dont le mot de passe est saisi. En raison des différents styles de frappe, cadence et rythme, les gens ont tendance à taper les lettres de manières très différentes. Diverses équipes appellent cela biométrie comportementale, dynamique de frappe ou métadonnées paralinguistiques. Différentes variantes de ces techniques peuvent également étendre le concept aux techniques de souris et à la saisie vocale.

Dans le domaine universitaire, il serait logique d’intégrer des mesures de ces paramètres comportementaux dans une nouvelle génération de traitements de texte. Il n’est peut-être même pas nécessaire de développer des applications entièrement nouvelles. Ils pourraient simplement être incorporés dans une bibliothèque open source que les traitements de texte, les applications Web et d’autres outils existants pourraient utiliser.