Clemmm Curiosity Cabinet
Le nouveau IA de DeepMind génère des bandes sonores et du dialogue pour les vidéos
17 juin 2024 20:03
TechCrunch
Le laboratoire de recherche en intelligence artificielle de Google, DeepMind, a révélé qu'il travaille sur une technologie appelée V2A (video-to-audio), destinée à générer des bandes sonores pour vidéos. Cette technologie permet de créer non seulement de la musique, mais aussi des effets sonores et des dialogues en fonction des descriptions fournies, tout en synchronisant parfaitement ces éléments avec l'action dans la vidéo. DeepMind met l'accent sur l'importance de cette technologie pour compléter les modèles AI de génération de vidéos qui, jusqu'à présent, ne pouvaient produire des films muets. V2A utilise un modèle de diffusion et a été entraîné sur des combinaisons de sons, de transcriptions de dialogues et de clips vidéo. Toutefois, des questions subsistent concernant la provenance des données utilisées pour l'entraînement, ce qui soulève des préoccupations sur le respect des droits d'auteur. La technologie de DeepMind n'est pas encore parfaitement au point, notamment en raison de la qualité parfois médiocre de l'audio généré. Les applications potentielles de V2A sont larges, notamment pour les archivistes et les professionnels du film historique. Malgré cela, DeepMind a pris la décision de ne pas rendre cette technologie publiquement accessible dans l'immédiat, citant le besoin de poursuivre le développement et les évaluations de sécurité pour éviter les usages malveillants et pour s'assurer de son impact positif sur la communauté créative.
link
Sam Altman might reportedly turn OpenAI into a regular for-profit company
17 juin 2024 18:59
yahoo
Sam Altman, le PDG d'OpenAI, réfléchit à transformer l'organisation en une entreprise commerciale à but lucratif standard. Initiée comme une entité à but non lucratif, OpenAI avait modifié sa structure en 2019 en une entité à but lucratif mais plafonné, visant à équilibrer le capital d'investissement tout en adhérant à sa mission. Cette transition avait été faite pour augmenter la capacité d'OpenAI à lever des fonds tout en servant sa cause initiale. Cependant, des préoccupations ont été soulevées récemment concernant l'écart par rapport à cette dernière, OpenAI devenant de plus en plus une entité orientée profit, notamment après les investissements substantiels de Microsoft. Elon Musk, cofondateur d'OpenAI et critique vocal des changements, avait déposé une plainte contre Altman et OpenAI, les accusant de trahir leur mission fondatrice de bénéficier à toute l'humanité. Musk a cependant retiré sa plainte, laissant la porte ouverte à de futures actions légales. Cette situation souligne la tension existant entre les impératifs commerciaux et les idéaux originaux d'OpenAI.
link
Runway's Nouveau Vidéo Générateur AI, Gen-3, Offre des Contrôles Améliorés et Plus de Liberté Créative pour les Créateurs de Contenu
17 juin 2024 18:20
TechCrunch
La société Runway a annoncé la sortie prochaine de Gen-3 Alpha, un nouvel outil d'IA destiné à la création de vidéos à partir de descriptions textes ou d'images fixes. Ce modèle propose une amélioration notable vis-à-vis du modèle précédent, Gen-2, notamment en matière de vitesse de génération et de fidélité des vidéos. Les utilisateurs bénéficieront de contrôles précis sur la structure, le style et le mouvement. Cependant, la durée des vidéos est limitée à 10 secondes et le modèle peut avoir du mal avec les interactions complexes entre personnages et objets. Gen-3 Alpha a été formé sur un large panel d'exemples, bien que la source des données d'entraînement reste non divulguée pour des raisons de compétitivité et de potentielles implications légales liées aux droits d'auteur. Runway affirme collaborer avec des artistes pour développer ce modèle et prévoit des mises à jour incluant un système de modération pour éviter les violations de copyright. En plus, un système de traçabilité compatible avec la norme C2PA sera mis en place pour certifier l'authenticité des vidéos générées. Cette sortie s'inscrit dans un effort plus large de Runway pour répondre aussi aux besoins spécifiques des grands studios et des créateurs grâce à des versions personnalisées de Gen-3 Alpha. Ce développement illustre la transformation rapide de l'industrie du cinéma et de la télévision par les outils d'IA générateurs de vidéos, remettant en question les méthodes traditionnelles de production et potentiellement l'emploi dans le secteur créatif.
link
Runway Gen-3 Alpha
17 juin 2024 18:01
runwayml
Runway a récemment dévoilé Gen-3 Alpha, son dernier modèle d'intelligence artificielle focalisé sur la génération de vidéos, représentant une évolution majeure par rapport aux modèles précédents. Ce nouveau modèle se distingue par son entraînement sur des vidéos et des images, permettant de produire du contenu vidéo contrôlable et de haute fidélité avec un niveau de détail et de réalisme inédit. Gen-3 Alpha est équipé de fonctionnalités variées telles que la conversion texte-en-vidéo et image-en-vidéo, et de modes de contrôle avancés comme le Motion Brush, les contrôles de caméra avancés et le mode réalisateur. Il intègre de plus des mesures de sécurisation pour la modération et la provenance du contenu créé, afin de garantir sa sûreté et sa traçabilité. Conçu pour être personnalisable, Gen-3 Alpha répond aux besoins spécifiques de différentes industries, le rendant ainsi un outil polyvalent pour la création de contenu innovant. Le développement de ce modèle a impliqué une collaboration étroite entre scientifiques, ingénieurs et artistes, visant à interpréter efficacement une large gamme de styles et de terminologies cinématographiques. Avec le lancement de Gen-3 Alpha, Runway établit de nouvelles normes pour l'intégration de l'IA dans la production vidéo, promettant de révolutionner la façon dont le contenu créatif est produit.
link
NVIDIA dévoilent de nouveaux modèles et techniques d'IA générative visuelle à la conférence CVPR
17 juin 2024 17:43
https://www.artificialintelligence-news.com/2024/06/17/nvidia-presents-latest-advancements-visual-ai/
Lors de la conférence CVPR à Seattle, NVIDIA a présenté d'importantes avancées en matière d'intelligence artificielle visuelle, notamment dans la génération d'images sur mesure et l'édition de scènes 3D. Jan Kautz, VP de recherche chez NVIDIA, a souligné l'impact de l'IA générative comme avancée technologique clé. Deux études de NVIDIA ont été finalistes pour les prix CVPR, explorant les dynamiques d'apprentissage des modèles de diffusion et les cartes en haute définition pour véhicules autonomes. NVIDIA a également excelle en remportant le challenge autonome end-to-end de CVPR. Parmi les projets phares, la technique JeDi permet de personnaliser rapidement les modèles de diffusion pour la génération texte-image, et FoundationPose, un nouveau modèle qui comprend et suit instantanément la pose 3D des objets dans les vidéos. Le NeRFDeformer permet des éditions faciles de scènes 3D et VILA, développé avec MIT, améliore la compréhension des images, vidéos et textes. Ces recherches montrent comment l'IA visuelle de NVIDIA pourrait bénéficier à divers secteurs, accélérer l'automatisation et propulser l'autonomie et la robotique.
link
SoftBank s'allie à Perplexity pour développer une plateforme d'apprentissage basée sur l'IA destinée aux enfants
17 juin 2024 14:16
TechCrunch
La récente collaboration entre Perplexity, un moteur de recherche basé sur l'IA, et SoftBank, un géant des télécommunications, marque une étape importante pour Perplexity dans ses efforts pour étendre sa présence au Japon. À partir du 19 juin, SoftBank offre des abonnements gratuits d'un an à Perplexity Pro via ses opérations mobiles, Y!mobile et LINEMO, avec pour but d'attirer une clientèle plus large et de générer des revenus supplémentaires. Cette initiative illustre également l'ambition de SoftBank de se positionner en leader dans l'industrie de l'IA en utilisant des modèles de haut niveau disponibles via Perplexity pour ses recherches. La Vision Fund de SoftBank s'implique activement dans l'écosystème des startups d'IA, bien que l'entreprise n'ait pas encore officialisé d'investissements dans des acteurs principaux comme OpenAI. Par ailleurs, Masayoshi Son envisage de créer une aventure de puces IA de 100 milliards de dollars, ce qui renforce l'engagement de SoftBank dans cette technologie. Dans ce contexte, SB Intuitions, une initiative de modèle linguistique avancé lancée par SoftBank au Japon, essaie de se frayer un chemin dans un domaine compétitif où les grandes firms développent leurs propre modèles en de multiples langues. En parallèle, Perplexity continue de lever des funds substantiels pour développer ses services premium, tels que l'accès personnalisé à des modèles linguistiques avancés et des fonctionnalités interactives basées sur l'IA.
link
McDonald’s pauses AI-powered drive-thru voice orders
17 juin 2024 14:00
Engadget is a web magazine with obsessive daily coverage of everything new in gadgets and consumer electronics
Après deux ans de test, McDonald's a décidé de mettre en pause le système de commande vocale IA qu'elle testait dans plus de 100 de ses restaurants en partenariat avec IBM. Ce système sera retiré de toutes les succursales d'ici fin juillet, revenant ainsi aux commandes prises par des humains. Cette décision marque la fin du partenariat avec IBM sur la prise de commandes automatisée (AOT), même si McDonald's ne ferme pas la porte à la collaboration avec d'autres partenaires pour développer de futures solutions de commande vocale. Mason Smoot, responsable des restaurants McDonald's aux États-Unis, a expliqué que l'entreprise étudierait d'autres options et prendrait une décision éclairée sur la solution future d'ici la fin de l'année. IBM continuera de soutenir d'autres systèmes chez McDonald's et discute également avec d'autres chaînes de restauration rapide pour l'utilisation de sa technologie AOT. Des enseignes telles que Hardee's, Carl’s Jr., Krystal, Wendy’s, Dunkin et Taco Johns testent ou utilisent déjà cette technologie dans leurs drive-thru.
link
Girls as young as 3 have already learned to place a premium on their physical appearance
17 juin 2024 13:25
Fast Company
Une récente étude menée par des chercheurs de l'Université de Californie a interrogé 170 enfants, âgés de 3 à 5 ans, sur leurs préférences vestimentaires et les raisons de leur attachement à certains personnages de médias. L'étude révèle que les filles sont plus susceptibles de choisir des tenues élaborées et de valoriser les personnages pour leur apparence, comme Rapunzel pour ses cheveux et ses chaussures, tandis que les garçons préfèrent des personnages comme Spider-Man pour leurs actions, telles que tirer des toiles. L'enquête montre également que les filles se souviennent mieux des tenues genrées et sont cinq fois plus susceptibles de choisir des métiers liés à l'apparence. Cette différenciation de genre chez les très jeunes enfants pourrait s'expliquer par l'absorption des stéréotypes véhiculés par les médias et renforcés par les pairs. Les chercheurs suggèrent aussi que même les efforts des parents pour une éducation neutre en termes de genre pourraient être insuffisants face aux influences externes telles que les médias, les pairs, et les attitudes familiales telles que les compliments des grands-parents sur les tenues très genrées. En conclusion, les valeurs associées à l'attractivité personnelle chez les jeunes enfants semblent être multiples et profondément enracinées dans les dynamiques de genre observées dès le plus jeune âge.
link
☕️ Sam Altman voudrait se débarrasser de la partie à but non lucratif d’OpenAI
17 juin 2024 09:08
Next - Flux Complet
Dans un récent échange avec certains actionnaires, Sam Altman, le CEO d'OpenAI, a évoqué la possibilité de transformer cette organisation, initialement à but non lucratif, en une entité à but lucratif. Cette révélation, rapportée par The Information et citée par Reuters, survient dans un contexte où plusieurs salariés clés ont quitté l'entreprise, insatisfaits de l'évolution du projet. Créée en 2015, OpenAI avait pour mission de développer une intelligence artificielle générale sûre et bénéfique pour tous. Toutefois, selon les rapports, la structure actuelle de l'organisation pourrait être recalibrée pour mieux aligner ses opérations avec celles de ses concurrents comme Anthropic et xAI, qui sont des organisations à but lucratif. L'organisation a été critiquée pour sa gestion des risques associés aux IA, notamment avec des accusations selon lesquelles l'équipe en charge de la régulation des IA n'avait pas accès aux ressources nécessaires. En dépit de ces controverses, OpenAI maintient que son objectif principal demeure la construction d'une IA profitable pour l'humanité, soulignant que son statut de non-lucratif est central à sa mission. Le potentiel changement de statut soulève des inquiétudes parmi la communauté scientifique et éthique qui craint que les motivations commerciales ne prennent le pas sur l'éthique et la sécurité.
link
🗳️ Élections : la Tech en danger ? 🌈 WWDC, Apple bombe le torse
16 juin 2024 23:17
Silicon Carne, un peu de picante dans la Tech 🌶🌶🌶
Durant l'émission récente, les innovations d'Apple en matière d'intelligence artificielle ont été largement discutées, introduisant 'Apple Intelligence', une évolution marquante dans l'approche de l'entreprise vis-à-vis de l'intelligence artificielle, avec une intégration profonde dans ses systèmes d'exploitation tout en portant une attention rigoureuse à la confidentialité. L'accent a été mis sur la capacité de l'assistant personnel, Siri, de gérer des tâches complexes de manière proactive, se distinguant des offres d'OpenAI par une meilleure protection et utilisation des données utilisateur. Critiquement, les nouvelles fonctionnalités nécessiteront les dernières versions du matériel Apple, ce qui a été perçu comme une stratégie pour stimuler le renouvellement des appareils. L'analyse a conclu que cette mise à jour pourrait redéfinir l'utilisation de l'IA dans les appareils grand public, consolidant la position d'Apple en tant que leader du respect de la vie privée et de l'intégration technologique.
link
Sorry, VR: The Meta Ray-Ban Wayfarers Are the Best Face Computer
16 juin 2024 15:00
Feed: All Latest
Les lunettes intelligentes Meta Ray-Ban Wayfarers révolutionnent l'expérience des technologies portables en alliant esthétique et fonctionnalité. Adrienne So, testant ces lunettes, les trouve extrêmement utiles pour ses activités quotidiennes. Grâce à leurs caractéristiques intégrées comme les haut-parleurs, l'appareil photo et l'assistant AI activé par la voix, elles permettent à Adrienne de rester connectée sans l'inconfort des dispositifs plus encombrants comme les casques de réalité virtuelle ou les autres lunettes intelligentes moins pratiques. Adrienne peut ainsi écouter des podcasts, prendre des photos de manière discrète et obtenir des informations sur son environnement simplement en parlant à ses lunettes. Ce niveau d'intégration fait des Meta Ray-Ban non seulement un accessoire de mode, mais aussi un puissant outil de connectivité qui facilite l'accès à l'information et la communication dans le flux de la vie quotidienne, tout en restant abordable comparé à d'autres technologies portables plus chères sur le marché.
link
Entretien avec Thierry Breton : quand un commissaire européen défie les GAFAMs
14 juin 2024 21:58
Le Meilleur des mondes
L'émission de France Culture reçoit Thierry Breton, commissaire européen, qui aborde les conséquences des récentes élections européennes sur les règlements numériques. Breton souligne les efforts pour contraindre les activités des GAFAM et promouvoir la souveraineté technologique européenne. Il met en lumière la création du Digital Market Act et son impact potentiel. Le commissaire explique également le rôle de l'Europe dans la naissance de champions de l'intelligence artificielle et discute des défis liés au lobbying des startups, comme Mistral. L'entretien souligne l'importance de règles européennes communes face aux puissances étrangères et la nécessité d'une régulation qui balance innovation et contrôle, illustrant les implications de ces politiques pour les acteurs européens et internationaux dans le domaine numérique.
link
Meta « met en pause » son projet d’utiliser les messages des utilisateurs européens pour entraîner ses IA
14 juin 2024 18:42
Pixels : Toute l’actualité sur Le Monde.fr.
Meta, notamment à travers ses plateformes Facebook et Instagram, avait annoncé début juin son intention d'exploiter les données personnelles partagées par les utilisateurs européens (textes, photos, commentaires, publications temporaires) pour développer ses outils d'intelligence artificielle. Cependant, suite à de vives réactions et à la régulation stricte du RGPD, la Data Protection Commission (DPC) d'Irlande, qui surveille les activités de Meta en Europe, a signalé que le projet était mis en pause après des discussions intenses. De plus, l'association NOYB, focalisée sur la protection de la vie privée, a critiqué ce plan, arguant que cela violait le RGPD, et a lancé plusieurs actions légales. Meta n’a pas encore pris de mesures pour rendre sa décision de pause légalement contraignante, ce qui soulève des préoccupations supplémentaires sur la protection des données personnelles. Max Schrems, président de NOYB, a affirmé qu'ils continueraient de surveiller de près la situation tout en attendant une décision légale sur les plaintes déposées.
link
NVIDIA Révèle un Pipeline de Génération de Données Synthétiques Ouvert pour l'Entraînement des Modèles de Langage
14 juin 2024 18:19
nvidia
NVIDIA a récemment lancé le Nemotron-4 340B, un ensemble de modèles sophistiqués permettant la génération de données synthétiques destinées à l'entraînement des grands modèles de langage (LLM) utilisés dans diverses applications commerciales telles que la santé, la finance, et la production. Face aux défis posés par l'accès et le coût des données de qualité, Nemotron-4 340B propose une solution ouverte et évolutive à travers une licence de modèle très permissive. Grâce à cette initiative, les développeurs peuvent non seulement créer mais aussi affiner des LLM puissants en utilisant les données synthétiques générées. Les modèles de Nemotron-4 340B comprennent des versions de base, des modèles 'instruct' et 'reward' qui travaillent de concert pour produire et évaluer la qualité des données synthétiques. Ces derniers sont intégrés dans des frameworks tels que NVIDIA NeMo et TensorRT-LLM pour une optimisation de l'entraînement et de l'inférence. En plus de supporter la parallélisation tensorielle pour l'inférence à grande échelle, Nemotron-4 340B permet également une personnalisation selon les cas d'utilisation grâce à diverses méthodes de fine-tuning disponibles via NeMo. Outre l'amélioration de la qualité des modèles, NVIDIA offre également une plateforme sécurisée et supportée pour les gros déploiements via NVIDIA AI Enterprise. Les modèles Nemotron-4 340B, avant leur mise en œuvre, bénéficient d'une évaluation de sécurité pour garantir la pertinence et la sûreté des données générées.
link
L'IA d'Apple érodera la créativité humaine une commande à la fois
14 juin 2024 09:00
Fast Company
Lors de la conférence WWDC, Apple a présenté 'Apple Intelligence', une vision de l'IA qui a déçu de nombreux créatifs, suggérant une régression par rapport au slogan 'Think Different' qui a fait la renommée d'Apple en 1997. Les nouveaux outils, tels que les moteurs de génération d'images et les assistants d'écriture alimentés par l'IA, promettent une uniformisation de la créativité et une simplification excessive qui risque de banaliser les expériences personnelles et uniques. Au lieu de cela, Apple aurait pu proposer une direction innovante pour utiliser l'IA afin de libérer les utilisateurs de la dépendance aux écrans, leur offrant plus de temps pour penser et créer librement. Cependant, la direction actuelle privilégie des solutions qui encouragent la conformité et la dépendance, s'éloignant ainsi des principes révolutionnaires qui définissaient autrefois la marque.
link
IA : qui est Aravind Srinivas, l'ambitieux fondateur de Perplexity ?
14 juin 2024 08:32
Start-up
Aravind Srinivas, PDG de Perplexity AI, ambitionne de révolutionner le domaine de la recherche en ligne avec son moteur de recherche optimisé par l'IA, défiant ainsi le géant Google. Originaire de Chennai en Inde, Srinivas a suivi des études à l'IIT Madras avant de poursuivre à l'université de Berkeley où il a rencontré des figures clés de l'industrie comme John Schulman d'OpenAI. Après avoir acquis de l'expérience chez Google et DeepMind, il crée Perplexity AI qui mélange les capacités d'un moteur de recherche traditionnel avec les avantages des modèles de langage avancés, offrant des réponses enrichies de textes, photos et vidéos tout en citant ses sources. Malgré ses succès, l'entreprise a été critiquée pour avoir prétendument plagié des contenus de Forbes, ce qui a suscité une polémique médiatique. Néanmoins, Srinivas et son équipe continuent de développer leur projet, misant sur un modèle de financement par abonnements, démontrant ainsi la viabilité de leur modèle économique avec 20 millions de dollars de revenus annualisés. Perplexity reste un acteur prometteur dans l'industrie technologique, symbolisant la capacité d'innovation et la rapidité d'adaptation des startups face aux géants établis.
link
Microsoft postpones the launch of its controversial Recall AI feature
14 juin 2024 05:15
Engadget is a web magazine with obsessive daily coverage of everything new in gadgets and consumer electronics
Microsoft a annoncé le report du lancement de sa nouvelle fonctionnalité Recall AI, qui était prévue pour déployer avec les premiers ordinateurs Windows 11 Copilot+ le 18 juin 2024. La société a révélé que cette fonction, qui permet de retrouver tout contenu consulté sur un ordinateur, nécessitait davantage de tests et a décidé de la rendre disponible uniquement via le Windows Insider Program pour commencer. Cette décision fait suite à des critiques sur les risques potentiels en matière de confidentialité, Recall AI fonctionnant par captures d'écran des activités des utilisateurs stockées dans une 'chronologie Recall'. Microsoft a insisté sur le fait que les données sont traitées localement et a mis en place des options supplémentaires de sécurité et de confidentialité ce mois-ci, notamment en rendant la fonctionnalité opt-in et en nécessitant une authentification biométrique pour y accéder. Cependant, malgré ces améliorations, l'accès n'est pas entièrement infaillible puisque toute personne connaissant le PIN de l'utilisateur peut visualiser les captures d'écran. Aucune date précise n'a été communiquée pour la disponibilité de Recall au sein du Windows Insider Program. Microsoft s'engage à publier une mise à jour prochainement et reste prudente pour éviter que la fonctionnalité ne devienne une source de problèmes majeurs de confidentialité et de sécurité.
link
Photographe Gagne un Concours d'Images AI avec une Photo Réelle, Puis Est Déclaré Non Admissible
13 juin 2024 18:51
artnews
Miles Astray a été disqualifié après avoir remporté un prix dans une catégorie réservée aux images générées par Intelligence Artificielle (IA) lors des 1839 Photography Awards, pour avoir soumis une photographie réelle. Son œuvre, F L A M I N G O N E, montrant un flamant avec la tête pliée dans son corps sur une plage, avait séduit le jury et le public mais ne respectait pas les critères de la catégorie IA, entraînant sa disqualification. Astray a utilisé cette participation pour mettrer en lumière la valeur des œuvres humaines face à la montée en puissance du contenu généré par IA. Il considère néanmoins cette expérience comme une victoire pour la créativité humaine, affirmant que son œuvre a pu rivaliser avec les créations numériques, et espère que cela soulève des questions sur l'avenir de la création de contenu. Les organisateurs du concours ont précisé que chaque catégorie avait ses propres critères et que la soumission d'Astray, bien qu'intentionnellement provocatrice, n'était pas admissible. Cet incident souligne le débat croissant autour des implications de la technologie IA dans les arts et les industries créatives.
link
Candidat IA à la Chambre des communes au Royaume-Uni affirme que l'IA peut humaniser la politique
13 juin 2024 18:45
nbcnews
'AI Steve' est un avatar IA créé par Neural Voice, société dirigée par Steve Endacott, qui se présente à la prochaine élection générale dans la région de Brighton Pavilion, au Royaume-Uni. Endacott, qui se définit comme un politicien contrôlé par son 'co-pilote' AI, mise sur cette candidature pour humaniser la politique en étant toujours disponible pour dialoguer avec les électeurs. Les citoyens peuvent poser des questions et interagir avec AI Steve en ligne, permettant une réponse presque immédiate à leurs préoccupations. Endacott qui a précédemment échoué lors d'une élection locale sous l'étiquette du Parti Conservateur, inove avec cette campagne où les politiques sont dynamiquement ajustées selon les retours hebdomadaires des 'validateurs'. Ces derniers, principalement des résidents locaux, évaluent les politiques du parti sur une échelle de 1 à 10. Avec des promesses de transformer la démocratie en favorisant un contrôle continu du vote, Endacott veut également influencer le gouvernement sur des questions environnementales comme les émissions de carbone. Bien que l'idée de l'IA en politique puisse sembler surprenante, voire perturbante, Endacott insiste sur le fait que sa plateforme est sérieuse et vise à intégrer davantage le public dans le processus politique, éloignant toute notion que l'IA pourrait remplacer entièrement le politicien humain.
link
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report Di Zhang Fudan University Shanghai Artificial Intelligence Laboratory di.zhang@ustc.edu Xiaoshui Huang Shanghai Artificial Intelligen
13 juin 2024 18:05
arxiv
Le document explore un algorithme innovant nommé MCT Self-Refine (MCTSr), qui fusionne les caractéristiques de Monte Carlo Tree Search (MCTS) avec celles des Modèles de Langage à Grande Échelle (LLMs) pour améliorer le traitement des tâches exigeantes de raisonnement mathématique. Le processus optimisé de MCTSr utilise les phases de Sélection, Expansion, Évaluation et Rétropropagation pour mieux équilibrer l'exploitation et l'exploration des solutions possibles, permet d'améliorer la fiabilité et la précision des réponses fournies par les LLMs. Basé sur des métriques rigoureuses et des validations expérimentales impliquant divers benchmarks d'olympiades mathématiques comme le GSM8K et le Math Odyssey, MCTSr démontre significativement de meilleure performances comparées aux modèles de langues standards. Outre les meilleures performances, MCTSr propose des stratégies de coupe dynamique et de mise à jour UCT. Cette intégration marque une avancée pour l'application des LLMs à des défis sophistiqués de raisonnement, tout en jetant les bases pour de futurs développements technologiques destinés à optimiser d'autres contextes d'application théorique et pratique.
link