Clemmm Curiosity Cabinet

Creatives are right to be fed up with Adobe and every other tech company right now

7 juin 2024 17:13 Fast Company

Adobe est récemment critiquée suite à la mise à jour controversée de ses termes d'utilisation qui stipule que l'entreprise peut accéder aux contenus des utilisateurs et les utiliser pour entraîner ses modèles IA, sans possibilité de refus si les utilisateurs veulent continuer à utiliser ses services comme Photoshop et la suite Creative Cloud. Cette annonce a provoqué une vive réaction parmi les professionnels créatifs qui s'inquiètent des implications pour la confidentialité, surtout pour ceux travaillant sous NDA. Adobe, par la voix de Scott Belsky, a nié les intentions d'espionnage tout en admettant que la formulation des conditions pouvait être maladroite et a précisé qu'une opt-out était possible pour certaines analyses de contenu utilisant l'apprentissage automatique. Cependant, malgré les tentatives de clarification et d'apaisement, la communauté créative reste sceptique et méfiante, craignant que les termes puissent être modifiés à l'avenir sans plus de transparence ou respect de la vie privée. Cette situation vient renforcer un sentiment de défiance général envers Adobe et d'autres géants technologiques, accusés de prioriser leurs bénéfices aux dépens des droits et de la confiance des utilisateurs. link

Meta va utiliser vos données personnelles sur Instagram et Facebook pour entraîner son IA (sauf si vous refusez)

7 juin 2024 15:00 Pixels : Toute l’actualité sur Le Monde.fr.

Meta a annoncé son intention d'utiliser les données des utilisateurs européens des plateformes Facebook et Instagram pour développer ses technologies d'intelligence artificielle. Ce projet, qui a été communiqué aux utilisateurs par notification, inclut l'utilisation de contenus tels que textes, photos et interactions. Toutefois, Meta assure qu'elle n'utilisera pas le contenu des messages privés. Les utilisateurs européens ont la possibilité théorique de refuser ces pratiques, une option non disponible pour les Américains. Cette démarche s'inscrit dans un cadre où l'Union européenne maintient une régulation stricte de la protection des données personnelles, contrairement à d'autres régions comme les États-Unis. Suite à cette annonce, l'association NOYB, spécialisée dans la défense des droits en matière de données personnelles, a déposé plainte en affirmant que Meta utilise de façon illégale ces données. L'association critique également la complexité des démarches pour refuser la participation, les jugeant décourageantes pour les utilisateurs. Max Schrems de NOYB, connu pour ses précédents succès juridiques contre de grandes entreprises technologiques, pilote cette action. Suite à ces événements, des réactions variées se sont manifestées sur les réseaux sociaux et certains artistes ont même quitté Instagram pour rejoindre des plateformes prioritaires sur la protection des données. link

🛩️ SaaS : Turbulences à Bord, Préparez-vous à l'Impact ! 💥

7 juin 2024 03:05 Silicon Carne, un peu de picante dans la Tech 🌶🌶🌶

Le texte discute d'un épisode du podcast Silicon Karné, où l'animateur mentionne un fan travaillant chez Salesforce, soulignant les dilemmes entre le travail et le suivi des passions personnelles comme les podcasts sur la technologie. Le débat s'étend sur les récentes difficultés économiques de Salesforce et comment cela reflète les tendances plus larges dans le secteur des logiciels en tant que service (SaaS), y compris la volatilité boursière. Il y a une discussion active concernant la régulation dans la Silicon Valley, avec un regard particulier sur l'intelligence artificielle et la manière dont les entreprises comme OpenAI et Anthropique façonnent l'avenir de la technologie avec d'importants soutiens financiers. L'engagement et les modèles de gouvernance dans les entreprises de tech innovantes soulignent le balance entre la rentabilité et la responsabilité sociétale. Le texte illustre aussi une communauté dynamique autour du podcast, où les engagements publics, comme les événements en direct et les interactions sur les plateformes numériques, renforcent le lien entre les auditeurs et le podcast. link

Scaling and evaluating sparse autoencoders

6 juin 2024 18:11 arxiv

Les autoencodeurs épars (SAEs) sont utilisés pour l'extraction de fonctionnalités interprétables des modèles de langue, grâce à la reconstruction des activations à partir d'une couche intermédiaire éparsifiée. Ils rencontrent cependant des défis comme l'entraînement difficile dû à leur haut niveau de sparsité et la présence de latents inactifs. L'article propose l'emploi d'autoencodeurs k-épars, qui permettent de réguler plus facilement la sparsité en supprimant les pénalités L1 inadéquates souvent utilisées. Ces autoencodeurs ont démontré une meilleure performance sur des frontières de reconstruction-sparsité et présentent moins de latents inactifs même après un dimensionnement important, jusqu’à 16 millions de latents testés avec des entrainements sur GPT-4. Plusieurs métriques ont été développées pour évaluer la capacité à récupérer des fonctionnalités précises, la sparsité des effets en aval et l'explicabilité des motifs d'activation, avec des résultats améliorés observables avec la montée en puissance de la taille des autoencodeurs. La flexibilité de ces autoencodeurs a été prouvée par leur application à de grands ensembles d'activation de GPT-4, démontrant des lois d'échelle robustes, une nouvelle compréhension de la modélisation des activations et le potentiel pour un déploiement dans des scénarios exigeant une grande précision de reconstruction et une forte sparsité. link

Selon les rapports, la FTC et le DOJ ouvrent des enquêtes anticoncurrentielles contre Microsoft, OpenAI et Nvidia sur la technologie AI

6 juin 2024 18:03 The Verge

Le New York Times a rapporté que le Federal Trade Commission (FTC) et le Department of Justice (DOJ) ont convenu de diviser leurs tâches pour enquêter sur de possibles violations antitrust impliquant Microsoft, OpenAI et Nvidia. Le DOJ se concentrera sur Nvidia tandis que le FTC examinera la collaboration entre OpenAI et Microsoft, son principal investisseur. Cette enquête survient après que le FTC a commencé à étudier les investissements de différentes compagnies technologiques dans de petites entreprises d'IA dès janvier. En outre, le FTC investigue les pratiques de collecte de données d'OpenAI à partir de 2023, pour déterminer si des informations fausses ou nuisibles ont été diffusées. Parallèlement, Microsoft fait l'objet d'enquêtes en Europe concernant son investissement de 13 milliards de dollars dans le fabricant de ChatGPT, OpenAI. Nvidia, bien qu'absent des conversations antitrust aux États-Unis jusqu'à présent, est touché par une enquête en France sur des pratiques anticoncurrentielles liées à ses bureaux, reconnaissant sa domination dans la production de puces essentielles au boom de l'IA. Le processus en cours examine des implications sérieuses pour chacune des entreprises concernées, sans annoncer de poursuites officielles immédiates contre elles. link

Évaluation et atténuation des risques liés aux élections dans l'ère numérique

6 juin 2024 18:00 anthropic

À l'approche des élections mondiales de 2024, ce texte expose les méthodes utilisées pour garantir l'intégrité électorale à travers l'évolution de l'IA. Un processus flexible combinant des tests de vulnérabilité (PVT) menés par des experts et des évaluations automatisées à grande échelle a été développé pour détecter les risques liés aux élections et orienter les réponses appropriées. Les experts examinent les performances des modèles IA en réponse à des requêtes spécifiques sur l'administration électorale, ajustant les modèles pour éviter la désinformation et s'assurer que les réponses sont actuelles et non biaisées. Des modifications comme l'ajustement de l'invite du système Claude pour inclure la date de coupure des connaissances et l'amélioration de la référence aux sources autorisées sont mises en œuvre. La méthode évalue aussi l'efficacité des interventions par des tests répétés, fournissant ainsi un cadre de sécurité basé sur des tests proactifs et des améliorations continues pour traiter de manière responsable les interactions IA-utilisateur durant les périodes électorales. link

Le mastodonte de l’IA Nvidia dépasse Apple à Wall Street

6 juin 2024 16:24 Le Monde

En peu de temps, Nvidia, principalement connu comme producteur de puces pour serveurs dédiés à l'IA, a vu sa capitalisation boursière dépasser les 3 000 milliards de dollars, surpassant Apple et talonnant Microsoft. Cette valorisation fait de Nvidia un des acteurs majeurs du capitalisme américain, comparable à des entreprises comme Microsoft et Apple dans leurs périodes de forte croissance. Nvidia a profité de l'explosion du marché des data centers et de l'IA, enregistrant des ventes en hausse spectaculaire de 7,2 milliards à 26 milliards de dollars entre les premiers trimestres de 2023 et 2024, tout en maintenant des coûts relativement bas grâce à la sous-traitance à des fournisseurs taïwanais. Ses profits ont connu une croissance exponentielle, passant de 2 milliards à 14,9 milliards sur la même période. Avec une domination de plus de 80 % sur le marché des puces d'IA, Nvidia a également présenté de nouveaux produits prometteurs, comme le microprocesseur 'Blackwell', et envisage d'étendre son influence au marché des ordinateurs personnels en partenariat avec des fabricants comme Asus et MSI. Le CEO de Nvidia, Jensen Huang, envisage cette période comme le début d'une nouvelle ère industrielle, centrée sur l'intelligence artificielle, où Nvidia jouera un rôle central. link

Taser connecte la caméra-piéton de son pistolet électrique à une IA pour générer des PV policiers

6 juin 2024 09:51 Next - Flux Complet

L'entreprise Axon, anciennement connue sous le nom de Taser, a créé Draft One, un logiciel basé sur une IA générative qui automatise la rédaction des procès-verbaux de police à partir des transcriptions des enregistrements des caméras-piétons. Ce système vise à réduire le temps que les policiers consacrent à la paperasserie, estimé à 40 % de leur temps de travail. Avec Draft One, ils économisent environ une heure par jour, ce qui se traduit par un gain de temps significatif pour d'autres activités plus essentielles telles que les patrouilles ou les interactions avec la communauté. Draft One incorpore des fonctions de relecture et d'édition nécessitant une validation humaine avant la soumission des rapports, garantissant ainsi leur exactitude. Des tests ont montré une amélioration substantielle de la qualité des rapports, avec des réductions de temps de rédaction allant jusqu'à 82 %. Par ailleurs, Axon a pris des mesures pour s'assurer que son IA évite les biais, notamment en configurant l'algorithme pour qu'il s'en tienne à ce qui est réellement enregistré, minimisant ainsi les erreurs. Cela positionne Axon, dont le chiffre d'affaires et la valorisation ont fortement augmenté depuis 2018, comme un leader innovant dans le domaine de la technologie policière, malgré certaines controverses antitrust liées à ses acquisitions stratégiques. link

La flambée boursière de Nvidia, un cas unique dans la tech

6 juin 2024 06:18 Tech & Médias

En mai 2024, Nvidia a enregistré une hausse spectaculaire de près de 30% suite à la publication de résultats financiers éclatants, renforçant sa position de leader mondial des puces électroniques. Cette progression a porté sa capitalisation boursière à des niveaux comparables à ceux de toutes les entreprises du CAC 40. Cependant, cette dynamique n'a pas été suffisante pour entraîner une hausse générale des marchés mondiaux. Le CAC 40 et le Nasdaq, bien que bénéficiant indirectement de la hausse des grandes techs, ont tous deux connu des baisses, le premier enregistrant même sa plus longue série de baisse de l'année. Les spécialistes attribuent cette stagnation à l'incertitude autour des politiques monétaires des banques centrales, malgré des indicateurs d'inflation stables. Par ailleurs, le marché des produits de luxe a également souffert, avec des marques telles que LVMH et Hermès voyant leurs valeurs décliner en raison de craintes de ralentissement des dépenses discrétionnaires. À l'approche de l'été, les analystes se montrent prudents, envisageant peu de chances de redressement immédiat des marchés, soulignant une influence disproportionnée de quelques géants de la tech sur l'économie boursière globale. link

Generative AI job postings increase tenfold in the past year

6 juin 2024 04:11 Fast Company

Au cours des deux dernières années, le secteur de l'intelligence artificielle générative a connu une croissance exponentielle en matière de recrutement, avec une augmentation des offres d'emploi de 75 fois entre avril 2022 et avril 2024, comme le rapporte le service Indeed. Ce secteur, bien que ne représentant qu'une petite fraction (0,12%) de l'ensemble des annonces d'emploi à la fin avril 2024, montre une expansion rapide, passant de 0,002% deux ans auparavant. Aux États-Unis, les emplois en IA représentent près de 2% de toutes les offres, soulignant l’intérêt croissant pour ces compétences. Les postes dans ce domaine offrent des rémunérations significativement plus élevées que la moyenne, avec des emplois débutant à 450 000 dollars par an pour certains profils hautement qualifiés. Les compétences les plus demandées incluent le machine learning, la visualisation de données et l'ingénierie des données. Alors que les scientifiques informatiques sont très recherchés, le secteur offre également des opportunités pour des profils moins techniques tels que les rédacteurs de documentation IA et les gestionnaires de projet. Malgré un ralentissement des embauches dans la tech vers la fin de l'année dernière, les offres pour des compétences en IA restent élevées, les recruteurs cherchant également des aptitudes transversales comme la curiosité et l'optimisme. Ceux qui sont capables de s'adapter rapidement peuvent se voir proposer plusieurs offres, profitant ainsi de l’augmentation continue de la demande dans ce domaine innovant. link

Hundreds of Snowflake customer passwords found online are linked to info-stealing malware

6 juin 2024 01:00 TechCrunch

Snowflake, une entreprise d'analyse de données, fait face à une série de vols de données présumés touchant ses clients corporatifs. Les autorités australiennes ont rapporté des compromissions chez plusieurs utilisateurs de la plateforme. Les pirates, actifs sur des forums cybercriminels, ont affirmé avoir dérobé d'importantes bases de données de clients de grandes entreprises comme Santander Bank et Ticketmaster, hébergées chez Snowflake. Une réponse de Snowflake mentionne une intrusion via des campagnes ciblées exploitant l'authentification à facteur unique, où les mots de passe étaient volés par malware. La société a admis que ses clients gèrent leurs propres sécurités et que l'authentification multi-facteurs (MFA) n'est pas requise par défaut, ce qui a probablement facilité ces accès non autorisés. Une conséquence de cette pratique a été observée chez Live Nation, dont la filiale Ticketmaster a confirmé un piratage important, impliquant une énorme fuite de données client. TechCrunch a repéré en ligne des centaines de credentials de clients de Snowflake disponibles pour les cybercriminels, ces identifiants ayant été volés par des malwares. Snowflake a depuis recommandé à tous ses clients d'activer sans tarder la MFA. Cette série de brèches met en lumière le rôle partagé de Snowflake et de ses clients dans la gestion de la sécurité des données, dans un contexte où les manquements à activer la MFA ont conduit à des fuites de données monumentales. link

Mistral lance de nouveaux services et SDK pour permettre aux clients de personnaliser ses modèles

5 juin 2024 23:35 TechCrunch

Mistral, une startup française spécialisée dans l'intelligence artificielle, annonce le lancement de nouveaux services et un SDK, appelé Mistral-Finetune, destinés à la personnalisation de ses modèles génératifs pour des cas d'usage spécifiques. Ces services visent à permettre aux développeurs et aux entreprises de peaufiner les modèles sur des stations de travail, des serveurs et des nœuds de petit centre de données. Le SDK, qui prend en charge les configurations multi-GPU, permet le fine-tuning de petits et grands modèles, comme illustré par l'exemple du fine-tuning du modèle Mistral 7B avec UltraChat en une demi-heure. En outre, Mistral propose des solutions plus managées à travers des services accessibles via son API, initialement compatibles avec deux de ses modèles, Mistral Small et Mistral 7B, avec des extensions prévues pour d'autres modèles. Les entreprises en quête de solutions encore plus personnalisées peuvent bénéficier des services de formation personnalisée, actuellement réservés à une sélection de clients, permettant l'optimisation des modèles de Mistral pour des applications spécifiques à l'organisation. Cette stratégie d'expansion des services de Mistral survient alors que l'entreprise cherche à lever environ 600 millions de dollars pour atteindre une valorisation de 6 milliards dollars, dans un contexte de concurrence accrue dans l'espace de l'IA générative. link

Databricks acquiert Tabular pour construire un standard commun de lac d'entreprise

4 juin 2024 19:04 TechCrunch

Databricks, une grande entreprise spécialisée dans l'analytique et l'intelligence artificielle, a récemment acquis Tabular, une société spécialisée dans la gestion de données, engendrant un rapprochement de leurs technologies et un pari sur un standard commun pour les architectures de lakehouses de données. Cette acquisition, dont le montant s'élève à plus d'un milliard de dollars selon CNBC, marque la fusion de Delta Lake et Iceberg, deux formats de données basés sur le stockage Apache Parquet mais incompatibles jusqu'à présent. Les cofondateurs de Tabular, Ryan Blue, Daniel Weeks et Jason Reid, confirment leur intégration chez Databricks où ils œuvreront à l'unification de la communauté de clients et au développement interopérable des formats. Avec environ 74% des organisations utilisant des lakehouses de données selon MIT Tech Review, la consolidation des formats offre à Databrics une position affinée sur le marché en réduisant les formats concurrentiels. Ce processus, soutenu à la fois par les communautés de Delta Lake et d'Iceberg, est envisagé comme un parcours de plusieurs années pour aboutir à une interopérabilité complète qui bénéficiaire aux utilisateurs finaux et renforcerait l'appel de la plateforme Databricks auprès des clients corporatifs. link

IA : le défi du partage de la richesse

4 juin 2024 17:30 Idées

L'article de Pierre Jacquet discute de l'impact potentiel de l'intelligence artificielle générative (IAgen) sur l'économie. Il souligne que l'IAgen est une General Purpose Technology qui pourrait influencer divers domaines humains et améliorer constamment son efficacité. La vraie question reste de savoir comment gérer ces technologies pour maximiser les bénéfices sociétaux et contrôler les risques, notamment en termes de répartition des gains de productivité, qui pourraient soit enrichir davantage les innovateurs et investisseurs, soit améliorer l'emploi et les rémunérations. La nécessité de repenser nos indicateurs de productivité et de croissance face aux défis climatiques et environnementaux est également évoquée, proposant une orientation vers une croissance plus verte. Finalement, l'article appelle à un débat largement partagé et à un engagement collectif pour définir l'utilisation de l'IA de manière éthique et équitable, un sujet qui sera au cœur des prochaines Rencontres économiques d'Aix-en-Provence. Cet évènement vise à explorer les diverses implications de relier technologie et humanité sous le thème 'relier les mondes'. link

Même le Raspberry Pi 5 succombe à l’IA…

4 juin 2024 15:55 Next - Flux Complet

Lors du récent Computex, Raspberry Pi a introduit un nouveau NPU externe pour son modèle Raspberry Pi 5, visant à augmenter ses capacités en intelligence artificielle. Ce module, vendu 70 dollars, repose sur la puce Hailo-8L, capable de fournir une puissance de calcul de 13 TOPS, mettant ainsi le Raspberry Pi 5 au niveau de compétitivité avec d’autres puces telles que celles d’Intel et Apple. Bien que le Raspberry Pi 5 dispose de base d’une ligne PCIe 2.0, le nouveau NPU utilise PCIe 3.0, exigeant une modification dans les paramètres de configuration pour en tirer pleinement parti. Selon la Fondation, cette amélioration, bien que non certifiée pour des raisons de stabilité, est fortement suggérée afin d'exploiter au mieux les capacités du NPU. Par ailleurs, l’intégration du module AI est facilitée par une installation logicielle simple et un support étendu pour les caméras. Ce kit permet le développement rapide d’applications de vision par intelligence artificielle, opérant en temps réel avec peu de latence et une consommation d’énergie réduite. La commercialisation de ce module ouvre de nouvelles potentialités pour les utilisateurs du Raspberry Pi 5, leur permettant de s’aventurer davantage dans des projets IA complexes avec facilité. link

Intel présente Lunar Lake (CPU, GPU, NPU), lance ses Xeon 6 E-core et Gaudi 3 pour l’IA

4 juin 2024 14:21 Next - Flux Complet

Lors du Computex 2024, Intel a introduit plusieurs innovations clés dans le domaine des microprocesseurs, présentant la nouvelle génération de CPU Lunar Lake, les Xeon 6 E-core et P-core pour les serveurs, ainsi que l'accélérateur Gaudi 3 dédié à l'intelligence artificielle. La gamme Lunar Lake propose des améliorations notablement par les cœurs P-core 'Lion Cove' et E-core 'Skymont', produites via le processus de gravure N3B de TSMC, promettant jusqu'à 40% d'amélioration en efficacité énergétique et 30% de hausse de l'IPC. Le GPU intégré utilise l'architecture Xe2 et offre une capacité accrue grâce à l'implémentation de la décompression VVC pour des fichiers vidéo de meilleure qualité à taille réduite. Intel a aussi mis à jour son NPU, offrant jusqu'à 48 TOPS avec des performances significativement améliorées, essentiels pour les applications IA. Pour le segment serveur, les nouveaux Xeon 6 E-core 'Sierra Forest' et P-core 'Granite Rapids' seront disponibles successivement, avec le P-core attendu dans le prochain trimestre et le E-core déjà sur le marché. Enfin, Intel s'est confronté directement à NVIDIA avec son Gaudi 3, proposant des coûts réduits et des performances supérieures pour l'entraînement et l'inférence IA, se positionnant comme une alternative viable aux H100 de NVIDIA pour les grands modèles de langage. link

Inside the Biggest FBI Sting Operation in History

4 juin 2024 12:00 Feed: All Latest

Maximilian Rivkin, un criminel surnommé Microsoft, jouait un rôle clé dans le trafic de drogue global, utilisant des téléphones cryptés Anøm. Ce qu'il ignorait, c'est que Anøm était contrôlé par le FBI dans le cadre de l'opération Trojan Shield, une vaste surveillance qui a finalement conduit à de nombreuses arrestations. Microsoft et son complice Hakan Ayik cherchaient à dominer le marché des téléphones cryptés après la chute d'EncroChat, pendant que Microsoft organisait parallèlement des plans d'assassinats et des largages de drogue. En Suède, les écoutes sur Anøm ont révélé des informations cruciales sur ses activités et ont conduit à l'interruption de plusieurs de ses plans criminels. Ces révélations ont forcé Microsoft à s'exiler et à repenser ses stratégies. Le projet Anøm a témoigné de la complexité et de l'ambition des opérations de surveillance du FBI, qui, en utilisant une entreprise apparemment légitime contrôlée de l'intérieur, pourrait capter une mine d'informations criminelles sans éveiller les soupçons. link

Chansons générées par l'IA : "27% des créateurs viendraient à disparaître", affirme la Sacem

4 juin 2024 07:09 francetvinfo

Cécile Rap-Veber, de la Sacem, a exprimé de sérieuses préoccupations quant à l'avenir des créateurs de musique face à la montée de l'intelligence artificielle. Selon une étude, 27% des auteurs pourraient être évincés par des œuvres générées par IA, menaçant environ 2,7 milliards d'euros de revenus pour les créateurs français et allemands. La Sacem a réagi en interdisant aux IA de s'entraîner sur son répertoire sans licence. Parallèlement, une nouvelle taxe sur le streaming a été introduite en France pour financer la création musicale, influençant les coûts d'abonnements sur des plateformes comme Spotify. Cette mesure a été accueillie avec optimisme par Rap-Veber, qui voit une opportunité pour l'exportation de la musique française. Toutefois, la Sacem garde un œil vigilant sur l'utilisation non autorisée des chansons, soulignant les défis futurs pour le suivi des droits d'auteur des œuvres diluées par IA. En définitive, ces évolutions offrent à la fois des menaces et des opportunités pour l'industrie musicale, ayant des implications profondes sur les concepts traditionnels de droits d'auteur et de création artistique. link

La face cachée de Nvidia

4 juin 2024 06:00 Underscore_

L'échange se concentre d'abord sur le parcours de l'invité avec NVIDIA, ses contributions au secteur technologique, notamment les GPU et l'intelligence artificielle. L'invité partage ensuite des détails sur les innovations dans la reconnaissance vocale de sa société, les méthodes de traitement des données, et comment ils ont dû s'adapter aux changements de technologies et contraintes de NVIDIA. En outre, il évoque les difficultés causées par le quasi-monopole de NVIDIA, ses pratiques controversées, et les répercussions sur l'industrie du hardware et du software. Les perspectives d'avenir sont aussi abordées, soulignant les défis pour les autres entreprises de maintenir une compétition équilibrée face à NVIDIA. Enfin, l'invité discute de l'importance vital d'une diversité accrue de fournisseurs dans le secteur pour éviter la stagnation et favoriser l'innovation continue. link

Llama 3-V : Équivalence de GPT4-V avec un modèle 100 fois plus petit et un budget de 500 dollars

3 juin 2024 21:18 medium

Llama 3-V représente une percée remarquable dans les modèles multimodaux en surpassant la performance de Llama3 et de GPT4 sur plusieurs benchmarks tout en étant économiquement plus viable avec un coût d'entraînement inférieur à 500 dollars. Le modèle tire parti de l'utilisation de SigLIP pour le traitement des images, en intégrant ces données dans Llama3 via un module de projection qui utilise la double attention pour aligner les embeddings visuels et textuels. Cette approche a montré une augmentation de 10-20% de la performance comparée à Llava, le modèle SOTA actuel. De plus, les optimisations de coût sont réalisées grâce à des mécanismes de caching et d'optimisations MPS/MLX, permettant une efficacité accrue pendant l'inférence. Les étapes de pré-entraînement et de finetuning supervisé visent surtout à actualiser la matrice de projection sans altérer les poids principaux de Llama-3, facilitant ainsi une intégration réussie et économique des capacités visuelles dans le modèle. Enfin, les auteurs soulignent la nécessité de vigilance et d'exactitude dans la reconnaissance des travaux préexistants, comme démontré par leur retrait initial suite à des similarités non reconnues avec le projet MiniCPM de OpenBMB. link