La barrière des coûts à la formation efficace des modèles vient de s’effondrer

Pour Srividya Sridharan, VP, Group Director, Forrester, le modèle open source de DeepSeek a provoqué une onde de choc. Un signal fort pour examiner de près la dépendance excessive à l’égard de quelques grands acteurs dans le domaine de l’IA.

« DeepSeek n’est pas seulement le ‘ChatGPT chinois ‘, c’est un pas de géant pour l’innovation mondiale en matière d’IA, car en réduisant le coût, le temps et l’énergie nécessaires à la création de modèles, beaucoup plus de chercheurs et de développeurs peuvent expérimenter, innover et essayer de nouveaux ensembles », analyse Srividya Sridharan, VP, Group Director, Forrester,.

Ce qui est perturbant et vraiment étonnant, c’est la façon dont les ingénieurs de DeepSeek ont ​​créé le modèle DeepThink (R1), en particulier le coût de formation du modèle, observent les analystes. Grâce à des optimisations astucieuses, le modèle DeepThink (R1) aurait coûté environ 5,5 millions USD à former, soit des dizaines de millions de moins que des modèles comparables.

Un signal fort

« Nous nous attendons à ce que ces optimisations soient copiées et améliorées par les créateurs de modèles du monde entier, estime Srividya Sridharan. À court terme, c’est une mauvaise nouvelle pour NVIDIA, car cela va modérer la demande. À plus long terme, cependant, le coût plus faible ouvrira des opportunités de création de modèles pour beaucoup plus de startups et d’entreprises, augmentant ainsi la demande. »

Cela confirme le fait que les fournisseurs qui ne fournissent que des modèles de base d’IA ne suffiront pas, et ce changement disruptif ouvrira encore plus le marché des modèles d’IA. Pour les leaders technologiques, cela devrait être un signal fort pour examiner de près la dépendance excessive à l’égard de quelques grands acteurs dans le domaine de l’IA.

Ne pleurez pas pour NVIDIA !

« N’oubliez pas que même si le coût de formation du modèle vient de diminuer de manière significative, le coût de prise en charge de l’inférence nécessitera toujours une quantité importante de calcul et de stockage, renchérit Srividya Sridharan. Ne pleurez pas pour NVIDIA et les hyperscalers pour le moment ! De plus, Intel pourrait avoir l’occasion de retrouver sa pertinence. Intel a cédé la domination de l’informatique haut de gamme à NVIDIA, mais la société a toujours parié que les leaders technologiques voudront intégrer l’IA partout, du PC à la périphérie, du centre de données au cloud, et il y aura une forte demande pour des LLM plus petits et ciblés. ».

L’informatique de pointe et l’intelligence ne sont plus une aspiration, elles sont là

L’application DeepSeek compte déjà des millions de téléchargements sur les boutiques d’applications pour téléphones mobiles. L’application se connecte au modèle et l’utilise dans le cloud. Une autre façon intéressante d’utiliser DeepSeek consiste à télécharger le modèle sur n’importe quel ordinateur portable. « Plusieurs analystes de Forrester ont effectué des tests sur des ordinateurs portables. C’est un peu lent, mais exécutable. Cela signifie que les modèles peuvent fonctionner partout sans avoir besoin de matériel spécialisé. Cela accélérera considérablement l’informatique de pointe. »

L’informatique de pointe traite les données plus près de leur source, réduisant ainsi la latence et l’utilisation de la bande passante. Cela aide les entreprises à anticiper les besoins des clients, à agir en leur nom et à gérer efficacement leurs activités dans des contextes localisés, y compris les scénarios compatibles avec l’Internet des objets. La possibilité d’exécuter des LLM sur des ordinateurs portables et des appareils de pointe amplifie ces avantages en fournissant de puissantes capacités d’IA directement à la périphérie.

LLM à la périphérie

« Cette capacité est particulièrement précieuse dans les scénarios où la prise de décision immédiate est essentielle, comme dans les véhicules autonomes, l’automatisation industrielle et les villes intelligentes, poursuit Srividya Sridharan. En exploitant les LLM à la périphérie, les entreprises peuvent obtenir un traitement des données plus rapide, une précision améliorée des prévisions et des expériences utilisateur améliorées, tous des objectifs stratégiques des initiatives AIOps. »

Bien évidemment, des barrières géopolitiques, de confidentialité et de sécurité subsistent. C’est un autre sujet. Et Forrester le rappelle. Selon sa politique de confidentialité, DeepSeek indique explicitement qu’il peut collecter « votre saisie de texte ou audio, vos invites, vos fichiers téléchargés, vos commentaires, votre historique de chat ou tout autre contenu » et les utiliser à des fins de formation. L’éditeur indique également qu’il peut partager ces informations avec les forces de l’ordre, les autorités publiques, etc., à sa discrétion.

Pour Srividya Sridharan, il ne faut pas supposer que les LLM sont la seule voie vers une IA plus sophistiquée. « Il se peut qu’une nouvelle architecture de modèle nous ramène directement à la nécessité d’énormes quantités de calcul, en particulier pour l’intelligence artificielle générale, conclut-elle. Mais pour l’instant, la publication de ce modèle par DeepSeek et des techniques qu’il a utilisées pour le créer devrait être un moment de célébration pour l’IA. Ce n’est pas le moment de réduire prématurément l’IA ! »