DeepSeek révèle un coût de formation IA étonnamment bas et s’étend sur AWS

L’entreprise chinoise DeepSeek secoue le monde de l’intelligence artificielle en révélant des coûts de développement bien inférieurs à ceux de ses concurrents américains, tout en annonçant la disponibilité de ses nouveaux modèles sur la plateforme cloud d’Amazon, Amazon Web Services (AWS).

Un coût de formation qui défie la concurrence

Dans un article publié par la prestigieuse revue scientifique Nature, le développeur chinois d’intelligence artificielle DeepSeek a affirmé avoir dépensé seulement 294 000 dollars pour l’entraînement de son modèle R1. Cette déclaration, qui offre une rare transparence sur les coûts dans le secteur, est susceptible d’alimenter le débat sur la position de Pékin dans la course mondiale à l’intelligence artificielle. À titre de comparaison, Sam Altman, PDG d’OpenAI, avait estimé en 2023 que l’entraînement de ses modèles fondamentaux coûtait « bien plus » de 100 millions de dollars, sans toutefois fournir de chiffres précis.

L’annonce initiale de DeepSeek en janvier, concernant ses systèmes d’IA à faible coût, avait déjà provoqué une chute des valeurs technologiques, les investisseurs craignant une menace pour la domination de leaders comme Nvidia. Suite à cela, l’entreprise et son fondateur, Liang Wenfeng, s’étaient faits discrets.

Controverse et clarifications sur le matériel utilisé

L’article de Nature précise que l’entraînement du modèle R1, axé sur le raisonnement, a nécessité 512 puces Nvidia H800 pendant 80 heures. Ces puces H800 ont été spécifiquement conçues par Nvidia pour le marché chinois après que les États-Unis ont interdit l’exportation vers la Chine de ses puces plus puissantes, les H100 et A100, en octobre 2022.

Cependant, des responsables américains ont affirmé que DeepSeek avait accès à d’importantes quantités de puces H100. En réponse, et pour la première fois, l’entreprise a reconnu dans un document complémentaire à l’article posséder des puces A100, expliquant les avoir utilisées uniquement « pour préparer les expérimentations avec un modèle plus petit » lors des phases préparatoires. Cette possession de clusters de puces A100 est d’ailleurs une des raisons pour lesquelles DeepSeek a pu attirer certains des meilleurs talents en Chine. L’entreprise a également profité de cette publication pour répondre indirectement aux accusations de « distillation » de modèles d’OpenAI, une pratique qui consisterait à copier les capacités d’un modèle concurrent.

L’arrivée de DeepSeek et Qwen3 sur Amazon Bedrock

Malgré ces controverses, DeepSeek poursuit son expansion. Amazon Web Services (AWS) a récemment annoncé l’intégration des modèles « à poids ouverts » (open weight) de DeepSeek (DeepSeek-V3.1) et d’Alibaba (Qwen3) à sa plateforme Amazon Bedrock. Cette initiative renforce l’engagement d’AWS à offrir un large éventail de technologies d’IA de pointe, aux côtés de modèles de Meta, Mistral AI ou encore OpenAI.

Contrairement aux modèles propriétaires, les modèles à poids ouverts offrent aux développeurs une transparence sur leurs « poids » (les paramètres internes du modèle), ce qui permet une plus grande flexibilité et des possibilités de personnalisation accrues. Les clients utilisant ces modèles sur Bedrock bénéficient de la sécurité et de la confidentialité d’AWS, qui garantit que leurs données ne sont ni partagées avec les fournisseurs de modèles ni utilisées pour améliorer les versions de base.

Portrait des nouveaux modèles disponibles

Pour illustrer leurs capacités, AWS propose des analogies : la famille de modèles Qwen3 est comparée à des experts polyglottes dotés d’une connaissance encyclopédique, capables de traiter des sujets variés, d’écrire des récits créatifs ou de gérer des tâches de codage complexes. Le Qwen3-235B-A22B peut par exemple traiter jusqu’à 262 000 tokens, soit l’équivalent de deux romans complets, en une seule conversation.

De son côté, DeepSeek-V3.1 serait cet ami méthodique qui décompose les problèmes complexes avec une logique rigoureuse. Composé de 685 milliards de paramètres, il n’active que les « connexions neuronales » pertinentes pour chaque tâche, ce qui le rend plus rentable à l’usage tout en maintenant des performances de haut niveau, notamment dans le raisonnement et les tâches dites « agentiques ». Des clients comme CoinMarketCap, une source de données sur les cryptomonnaies, utilisent déjà les modèles de DeepSeek sur Amazon Bedrock pour transformer de grands volumes de données en analyses pertinentes pour leurs utilisateurs.

L’avenir de l’IA : transparent et flexible

Selon Luis Wang, directeur d’Amazon Bedrock, « les modèles à poids ouverts représentent une frontière vitale de l’innovation en IA ». Ils permettent aux développeurs de s’appuyer sur des travaux existants plutôt que de partir de zéro. Cette approche favorise non seulement l’innovation mais améliore également la transparence pour les clients. En les rendant disponibles sur des plateformes entièrement gérées comme Amazon Bedrock, AWS les rend accessibles à un plus grand nombre d’entreprises, sans nécessiter d’équipes techniques spécialisées, redessinant ainsi le futur de l’intelligence artificielle générative.