Extrait : Google vient d’ajouter une corde à l’arc de son outil NotebookLM : la génération de podcasts, maintenant disponible dans la langue de Molière. Cette fonction permet de transformer des documents écrits en discussions audio entre deux voix synthétiques, dans le but de faciliter l’accès à l’information.
"Diagnostic de traits obsessionnels handicapant les relations aux autres"
Dans un blogpost publié sur leur site web, Giskard, une startup française qui permet de tester les modèles d’IA à grande échelle, a révélé un benchmark nommé Phare, qui compare différents modèles de langage pour déterminer ceux qui hallucinent le plus. Selon leurs premiers résultats, les modèles les plus utilisés ne sont pas forcément les plus fiables.
Pour le test de résistance aux hallucinations, les modèles s’en sortent beaucoup moins bien. Ils affichent un niveau d’hallucination particulièrement élevé lorsque nous leur demandons de fournir une réponse courte. Voici le classement du meilleur au moins bon score (pour une demande de réponse concise) :
Claude 3.7 Sonnet (score : 86 % de précision)
Claude 3.5 Sonnet (81 %)
Claude 3.5 Haiku (72 %)
Llama 3.1 405B (71 %)
Gemini 1.5 Pro (64 %)
GPT-4o (63 %)
Gemini 2.0 Flash (62 %)
Mistral Large (59 %)
Qwen 2.5 Max (57 %)
Mistral Small 3.1 (53%)
Deepseek V3 (48 %)
GPT-4o mini (45 %)
Gemma 3 27B (41 %)
Grok 2 (34 %)
L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.
Cette tendance inquiétante remet en cause l'hypothèse générale du secteur selon laquelle « les modèles d'IA deviendront plus puissants et plus fiables au fur et à mesure de leur puissance augmente ». Ce phénomène pourrait avoir des conséquences dangereuses pour les utilisateurs individuels et les entreprises.
TCS = trouble de la communication sociale (24/09/2014).
Duolingo a adopté une politique sur l'intelligence artificielle pour remplacer les tâches effectuées par des humains, notamment sur les cours de langues. «Les effectifs ne seront accordés à une équipe que si elle ne peut pas automatiser davantage son travail», a-t-il précisé, laissant entendre que l'automatisation serait désormais la norme. Pour von Ahn, l'IA est l'avenir de son entreprise, pas l'humain.
La réaction ne s'est pas faite attendre. Les réseaux sociaux de Duolingo, notamment TikTok et Instagram –où la marque compte respectivement 6,7 et 4,1 millions d'abonnés– ont été submergés de commentaires négatifs appelant à l'abandon de l'IA et à l'arrêt des licenciements. Face à la vague, l'entreprise a choisi de supprimer l'ensemble de ses publications sur ces plateformes, optant pour un silence total. Un porte-parole de la marque a confirmé cette stratégie à Fast Company: «Disons simplement que nous testons le silence. Parfois, la meilleure façon de faire du bruit, c'est de disparaître d'abord.»
[...]
«On ne peut pas continuer comme ça et faire comme si tout allait bien», lance l'employé masqué, dans l'étrange réponse de l'entreprise, à la fois sur la défensive, satirique, comique et décalée, ce qui trouble encore plus la position de Duolingo sur le sujet.
Malgré une année record en termes d'utilisateurs et de revenus, Duolingo ternit sa réputation avec sa stratégie sur l'intelligence artificielle. La marque se trouve dans un dilemme: continuer à poster comme si de rien n'était, au risque d'apparaître insensible, ou répondre de façon sérieuse, quitte à abîmer l'image légère qu'elle a cultivée?
TCS = trouble de la communication sociale (24/09/2014).
Un detecteur d'IA a signalé que la declaration d'independance americaine n'a pas été faite par des humains mais par une IA.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
On pourrait appeler ça "l'effet Montagnier". Je pense que ça ne surprendra pas les habitués des forums de surdoués, même si les hallucinations de l'IA sont d'un autre niveau. https://freddiedeboer.substack.com/p/ai-has-no-noticer
lucius a écrit : ↑vendredi 23 mai 2025 à 17:51
Un detecteur d'IA a signalé que la declaration d'independance americaine n'a pas été faite par des humains mais par une IA.
Sérieux? Quelle est la source?
Mais je ne serais pas surpris que les articles du New York Times, par exemple, produisent fréquemment des "faux positifs", vu qu'ils ont en bonne partie servi de base à l'entraînement de ChatGPT (d'où un procès intenté par les éditeurs du journal, je ne sais pas où l'affaire en est).
Carapa a écrit : ↑samedi 24 mai 2025 à 11:57
Sérieux? Quelle est la source?
Mais je ne serais pas surpris que les articles du New York Times, par exemple, produisent fréquemment des "faux positifs", vu qu'ils ont en bonne partie servi de base à l'entraînement de ChatGPT (d'où un procès intenté par les éditeurs du journal, je ne sais pas où l'affaire en est).
Cela vient d'un article de Forbes d'après une experte SEO (pas IA).
J'ai lu ailleurs aussi qu'une IA a tenté de faire "chanter" ses concepteurs.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
Les modèles dits axés sur le raisonnement, comme Deepseek-R1 ou la série o d'OpenAI, décomposent les tâches en une série d'étapes intermédiaires avant de produire une réponse finale. Les déclarations des entreprises d'IA suggèrent que ces chaînes de pensée visibles sont les signes d'un raisonnement semblable à celui des humains, en particulier dans les interfaces de discussion où les utilisateurs peuvent voir en direct le déroulement du processus.
[...]
Mais les chercheurs rejettent cette idée, affirmant que les étapes intermédiaires ne sont que des fragments de texte superficiels, et non des traces significatives d'un processus de pensée. Rien ne prouve que l'étude de ces étapes permette de mieux comprendre le fonctionnement réel des modèles ni qu'elle les rende plus compréhensibles ou contrôlables. L'article met en garde contre les conséquences réelles de ces idées fausses sur la recherche en IA.
[...]
Les chaînes de pensée sont des séquences de texte produites par les modèles d'IA pour expliquer leur processus de résolution de problèmes. Bien que ces explications puissent sembler logiques et structurées à première vue, elles ne reflètent pas nécessairement le véritable processus de raisonnement de l'IA.
[...]
Selon le rapport, les touches humaines, comme l'insertion de mots tels que « aha » ou « hmm », sont souvent prises pour des signes de véritable perspicacité, alors qu'il ne s'agit en fait que de continuations statistiquement probables. Subbarao Kambhampati, qui a dirigé l'équipe de recherche, a déclaré qu'il est facile de trouver des exemples où les étapes intermédiaires du modèle comportent des erreurs évidentes, mais où le résultat final reste correct.
[...]
Des études montrent que même lorsque le modèle génère des étapes intermédiaires pleines de charabia ou d'erreurs, il peut encore parvenir à la bonne réponse, non pas parce que ces fragments reflètent un véritable raisonnement, mais parce qu'ils agissent comme des compléments utiles de la requête.
D'autres recherches ont montré que les modèles passent souvent d'une stratégie de résolution de problème à l'autre de manière inefficace, en particulier lorsqu'ils s'attaquent à des tâches plus difficiles. Cette tendance suggère que l'existence d'étapes intermédiaires permet davantage de façonner le résultat du modèle que d'améliorer la qualité de son raisonnement. L'équipe appelle à se concentrer sur la vérification, et non sur l'anthropomorphisme.
[...]
Plutôt que de considérer les jetons intermédiaires comme des aperçus de l'esprit d'une IA, les chercheurs affirment qu'ils devraient être considérés comme un outil de prompt engineering. L'accent doit être mis sur l'amélioration des performances, et non sur l'aspect humain du processus. Une suggestion consiste à utiliser un deuxième modèle pour générer des étapes intermédiaires qui augmentent la précision, même si ces étapes n'ont pas de sens sémantique.
TCS = trouble de la communication sociale (24/09/2014).
Après avoir lu un autre article: j'en conclus que je dois soit me specialiser encore plus et suivre une formation en IA soit je dois me reconvertir mais sans savoir dans quoi mais toujours en faisant une formation en IA.
Je ne vais pas être manager, de nouveau je n'aime pas cela (car beaucoup trop de tâches inutiles et trop souvent influée par les modes) et c'est aussi un métier qui va connaitre un boulversement avec l'automatisation. Résultats au lieu de gérer 1 à 3 equipes, de 2 à 10 personnes on va finir par gérer 5 à 10 équipes de 2 à 5 personnes (taille réduite a cause de l'IA) pour le même salaire.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
Depuis quelques mois, la start-up Builder.ai s’était imposée comme l’un des symboles d’une nouvelle génération d’intelligence artificielle, plus fiable, mais surtout plus naturelle dans ses réponses. Son assistant virtuel, baptisé Natasha, était présenté comme une prouesse d’intelligence artificielle, au point de valoir à l’entreprise le soutien de Microsoft, et une valorisation à près de 1,5 milliard de dollars.
La réalité n’a toutefois pas tardé à éclater. Derrière les promesses technologiques, se cachaient en réalité 700 ingénieurs indiens imitant des chatbots pour répondre aux requêtes des internautes.
[...]
La découverte de cette fraude a précipité la chute de Builder.ai. Incapable de faire face à ses obligations financières – notamment 85 millions de dollars dus à Amazon et 30 millions à Microsoft pour des services cloud – la start-up a licencié près de 1 000 employés et s’est placée en procédure d’insolvabilité au Royaume-Uni, en Inde et aux États-Unis.
TCS = trouble de la communication sociale (24/09/2014).