En 2026, le train de l’intelligence artificielle devra prendre un tournant majeur : celui de la miniaturisation. Les plateformes de cloud computing, certes pratiques, soulèvent des questions sur le coût énergétique, la confidentialité et la sécurité des données, ainsi que sur la souveraineté d’accès à cette technologie. Chez NaturalPad, nous pensons que l’intelligence artificielle sera accessible et efficiente, ou qu’elle ne sera pas. Notre chercheur Mohamed Adjel vous explique comment des scientifiques et ingénieurs du monde entier essaient de rendre cette réalité concrète.
L’avènement des modèles de fondation1 en traitement du langage et en vision par ordinateur est en train de profondément transformer les sociétés humaines qui semblent se tourner vers une adoption de masse de ces technologies. Pourtant, derrière la magie des résultats, une réalité physique s’impose : l’entraînement et l’inférence des intelligences artificielles présentent un coût énergétique (et donc économique) exorbitant pour une grande part des usages actuels. Ce constat ne freine en rien les investissements massifs dans des data centers énergivores, ni la course effrénée des entreprises qui peinent encore à trouver des usages rentables à leurs modèles « fermés ». C’est notamment le cas d’OpenAI qui adopte une stratégie d’occupation du marché à coup de levées de fonds record (les usages, c’est pour plus tard) mais questionne quant à sa rentabilité et à la viabilité de son modèle.
L’alternative Open-Source et le défi du matériel

Dans le même temps, chaque semaine, la communauté open-source2 met à disposition des modèles de fondation totalement accessibles sur des plateformes comme Hugging Face, accompagnés d’outils permettant leur déploiement sur des terminaux grand public. C’est le cas du captivant Reachy Mini de Pollen Robotics, qui est un petit humanoïde de poche3 que l’on peut mettre sur notre bureau. Sa particularité ? On peut interagir et converser avec lui tel un compagnon, grâce à des intelligences artificielles déployées sur le robot ou sur un ordinateur connecté au Reachy Mini. Les usages potentiels ne sont limités que par votre imagination et par votre capacité à déployer des modèles d’intelligence artificielle chez vous.
L’accès à ce genre d’expériences est pour l’instant réservé à ceux qui sont suffisamment geeks pour s’amuser avec l’outil, donc souvent des chercheurs, des ingénieurs, mais aussi beaucoup d’étudiants, et parfois même des enfants sous la guidance de leurs parents. Même si certains modèles de fondation nécessitent encore d’avoir un puissant GPU ou de payer l’accès à des plateformes cloud de calcul distribué, il existe des plateformes de cloud partagé. De plus, nous allons voir qu’une partie de la communauté s’attèle à compresser ces modèles pour en faciliter l’usage sur des terminaux grand public.
Repenser le rôle du Cloud
Le Cloud permet de centraliser et paralléliser le calcul massif nécessaire à l’entraînement, de prototyper rapidement, et de déployer des applications à grande échelle, y compris dans des zones géographiques dépourvues de terminaux puissants capables de supporter l’inférence locale.
Toutefois, la miniaturisation des réseaux de neurones devient un impératif. En transférant une partie vers le edge (sur l’appareil de l’utilisateur), nous pouvons alléger la charge colossale qui pèse sur les infrastructures Cloud. Cela ouvre également la porte à une plus grande confidentialité des données et permet au grand public de s’approprier, d’adapter et de développer l’intelligence artificielle pour des usages personnels, sans dépendre d’une connexion permanente.
La valeur ajoutée de l’intelligence artificielle ne devrait pas résider dans la possibilité d’y accéder, mais plutôt dans la diversité des usages que l’on peut en faire.
En silence, une petite révolution est en train de s’opérer avec des recherches en compression de l’information (Mallat 2008), en compression de réseaux de neurones (Bucila et al. 2006, Mallat 2011, Hinton et al. 2015, Hohman et al. 2024), et en architectures efficientes (Kaushik et al. 2025, Jolicoeur-Martineau 2025). La poursuite de ces recherches permettra vraisemblablement de voir l’avènement de modèles drastiquement plus frugaux, ce qui va réduire la consommation des plus gros modèles sur le cloud, et permettra de déployer localement des modèles de petite taille sur nos smartphones, ordinateurs et autres appareils connectés.
Vers une véritable intelligence ?
Si l’on compare l’intelligence des modèles les plus avancés (par exemple Gemini 2.5) avec celle d’un humain éduqué, le fossé est immense. Certes, Gemini s’est imprégné d’une information textuelle bien plus grande que celle d’un humain, ce qui lui permet de ressortir dans le détail presque n’importe quelle information sur laquelle il a été entraîné. Cependant, il y a plusieurs magnitudes d’écart entre la capacité de raisonnement d’un Gemini et celle d’un cerveau humain qui ne consomme que 20 Watts, et qui est capable d’apprendre en continu à partir d’une multitude de sens.
Les modèles de fondation semblent atteindre un plateau en termes de capacités d’apprentissage à partir du texte (Hooker 2025), et il serait présomptueux de penser que les techniques actuelles de compression pourraient permettre de déployer Gemini 2.5 sur votre mobile ou votre Reachy Mini.
Si dans les années qui viennent nous ne parvenons pas à réduire drastiquement la taille des modèles de fondation les plus avancés et à les faire apprendre en continu, il faudra sérieusement questionner le bien fondé du paradigme Deep Learning comme fondement de l’intelligence artificielle.
Cette question, l’équipe Numenta du neuroscientifique Jeff Hawkins se la pose déjà, au travers de la Thousand Brains Theory (théorie des milles cerveaux) qui s’inspire de la structure du néocortex présent chez les mammifères. Ce paradigme pose entre autres, de manière native et élégante, les fondements d’un apprentissage en continu à l’aide d’un mécanisme sensorimoteur qui cherche à construire une cartographie stable du monde à partir du mouvement (Clay et al. 2024, Leadhom et al. 2025). Ce concept de « Modèle du Monde » (ou World Model4 en anglais) infuse déjà la recherche actuelle (e.g. modèle JEPA de Yann Lecun), mais reste dépendant des paradigmes actuels (Deep Learning et Reinforcement Learning) qui reposent largement sur l’optimisation d’une fonction d’objectif ou de récompense via la rétropropagation, et sont incapables d’apprendre en continu.

La valeur se trouve dans les usages
Au-delà des débats théoriques sur la viabilité du Deep Learning ou la quête d’une « véritable » intelligence, une réalité pragmatique s’impose : cette technologie est là. En définitive, qu’elle soit intelligente ou non importe peu face à la matérialité de son impact. Elle influence déjà un spectre vertigineux d’applications, allant de l’amélioration de l’accessibilité aux jeux vidéo (MediMoov, Playability) jusqu’aux systèmes d’IA militaire déployés par Israël à Gaza, où des outils comme Lavender ont permis de marquer des dizaines de milliers de Palestiniens comme cibles potentielles avec une supervision humaine minimale5. La particularité des modèles de langage actuels ne réside plus seulement dans leur capacité à converser, mais dans leur aptitude à générer du texte structuré pour dialoguer avec nos outils numériques.
Grâce à des standards émergents comme le MCP (Model Context Protocol)6, l’IA devient capable de piloter nos machines et nos logiciels, ouvrant la voie à une infinité de détournements et d’innovations. Le rythme d’apparition de ces nouveaux usages s’accélère à un point tel qu’il devient ardu de tous les suivre. Des initiatives comme OpenClaw permettent aujourd’hui d’avoir son propre agent déployé sur une machine personnelle, avec lequel on peut communiquer via nos applications de messagerie classiques.
Pour que l’intelligence tienne véritablement « dans la poche », elle devra moins chercher à imiter la complexité du cerveau humain qu’à s’intégrer, de manière simple et efficiente dans nos usages du quotidien.
- Réseaux de neurones de grande taille (comptant des milliards de paramètres) entraînés sur de très larges bases de données et capables de généraliser à différentes tâches. Les Large Language Models (LLMs) sont des modèles de fondation pour le traitement du langage. ↩︎
- Qui donne accès au code source, aux données d’entraînement et au modèle entraîné. ↩︎
- Cette formulation se veut bienveillante à l’égard de ce mignon petit robot, d’apparence inoffensif, qui peut incarner un compagnon de 28×16 cm pesant 1.5 kilos. ↩︎
- Contrairement aux modèles de fondation classiques qui permet d’inférer une information B à partir d’une information A (e.g. image vers texte, ou encore texte vers texte pour les modèles de langage), un modèle du monde est capable de prédire comment une action peut influer sur son environnement. ↩︎
- https://www.972mag.com/lavender-ai-israeli-army-gaza/; https://www.washingtonpost.com/technology/2024/12/29/ai-israel-war-gaza-idf/ ↩︎
- Le MCP est un protocole standard ouvert conçu pour connecter des modèles d’intelligence artificielle (notamment des grands modèles de langage, des grands modèles de raisonnement ou agents conversationnels) à des outils, services et sources de données externes. ↩︎