Language Selection

Retrouvez votre bien-être dans ces temps dure sur Terre , Essayez le MedBed Quantique!
Cliquez ici pour réserver votre séance

Famille et pour toute la Famille avec Le Medbed Quantique® Orgo-Life® une technologie du Canada

Advertising by Adpathway

Une entreprise dirigée par IA : les conclusions en disent très long sur notre avenir au travail

5 month_ago 31

NE LAISSER PAS LE 5G DETRUIRE VOTRE ADN Protéger toute votre famille avec les appareils Quantiques Orgo-Life®

Publicité par Adpathway

L'intelligence artificielle est-elle sur le point de nous voler notre travail à tous ? Certaines boîtes n'hésitent pas à parier dessus, tandis que d'autres ne veulent rien savoir, la jugeant incapable. Mais qu'en est-il vraiment ? Dans un article en prépublication sur Arxiv, des chercheurs de l'université Carnegie Mellon ont simulé une entreprise et engagé des agents d'intelligence artificielle pour la faire tourner. Et le résultat était loin d'être positif.

Les employés virtuels étaient des agents basés sur Claude d'Anthropic, GPT-4o d'OpenAI, Google Gemini, Amazon Nova, Meta Llama, et Qwen d'Alibaba. Ils se sont vu attribuer différents postes, comme analyste financier, chef de projet ou encore ingénieur logiciel. En même temps, les chercheurs ont utilisé une autre plateforme pour simuler des collègues qu'ils devaient contacter pour certaines tâches, comme un département des relations humaines.

Les agents ont échoué à plus de trois quarts des tâches

Les agents ont reçu différentes tâches, comme naviguer parmi différents fichiers pour analyser une base de données, ou encore effectuer plusieurs visites virtuelles pour choisir de nouveaux locaux. Claude 3.5 Sonnet a fini largement en tête, mais cet agent n'a réussi à terminer que 24 % des tâches. Même en prenant en compte les tâches partiellement complétées, son score n'arrive qu'à 34,4 %. Gemini 2.0 Flash se trouve en seconde position, mais n'est parvenu à compléter que 11,4 % des tâches. Aucun autre agent n'a dépassé 10 %. Toutefois, en matière de coût de fonctionnement, Claude 3.5 Sonnet a coûté 6,34 dollars, contre seulement 0,79 dollars pour Gemini 2.0 Flash.

Les chercheurs ont indiqué que bien souvent les agents ne sont pas capables de comprendre la partie implicite des instructions, comme lorsqu'ils doivent écrire le résultat dans un fichier avec une extension « .docx », ils n'en déduisent pas qu'il s'agit d'un format Microsoft Word. Ils échouent à certaines tâches par manque de compétences sociales. Mais l'un des plus gros problèmes était lorsqu'ils doivent naviguer sur le Web, et notamment la possibilité de naviguer dans les popups. Et parfois, lorsqu'ils sont perdus, ils font des raccourcis afin d'omettre la partie difficile de la tâche et pensent avoir réussi. Ces résultats montrent que même si les IA peuvent donner d'excellents résultats sur certaines tâches bien spécifiques, ils sont encore loin d'être capables d'un fonctionnement autonome.

read-entire-article