FILE - The smartphone app DeepSeek page is seen on a smartphone screen in Beijing, Jan. 28, 2025.

Jean Delaunay

Deepseek en Chine trouve un moyen d’aider l’IA à s’améliorer pour répondre aux questions. Voici comment ça marche

Deepseek et l’Université chinoise de Tsinghua disent qu’ils ont trouvé un moyen qui pourrait rendre les modèles d’IA plus intelligents et efficaces.

PUBLICITÉ

La start-up de l’IA chinoise Deepseek a introduit une nouvelle façon d’améliorer les capacités de raisonnement des modèles de grande langue (LLM) pour fournir des résultats meilleurs et plus rapides aux requêtes générales que ses concurrents.

Deepseek a déclenché une frénésie en janvier lorsqu’il est entré sur la scène avec R1, un modèle d’intelligence artificielle (IA) et un chatbot que la société a affirmé était moins cher et a joué tout aussi bien que le modèle de Chatgpt rival d’Openai.

Collaborant avec des chercheurs de l’Université chinoise de Tsinghua, Deepseek a déclaré dans son dernier article publié vendredi qu’il avait développé une technique pour les modèles d’IA auto-améliorés.

La technologie sous-jacente est appelée Critique Outing (SPCT), qui forme l’IA, à développer ses propres règles pour juger du contenu, puis utilise ces règles pour fournir des critiques détaillées.

Il obtient de meilleurs résultats en exécutant plusieurs évaluations simultanément plutôt que d’utiliser des modèles plus grands.

Cette approche est connue sous le nom de modélisation générative des récompenses (GRM), un système d’apprentissage automatique qui vérifie et évalue ce que les modèles d’IA produisent, en s’assurant qu’ils correspondent à ce que les humains demandent avec SPCT.

Comment ça marche?

Habituellement, l’amélioration de l’IA nécessite de rendre les modèles plus grands pendant l’entraînement, ce qui prend beaucoup d’efforts humains et de puissance informatique. Au lieu de cela, Deepseek a créé un système avec un « juge » intégré qui évalue les réponses de l’IA en temps réel.

Lorsque vous posez une question, ce juge compare la réponse planifiée de l’IA contre les règles de base de l’IA et à quoi devrait ressembler une bonne réponse.

S’il y a une correspondance étroite, l’IA obtient une rétroaction positive, ce qui l’aide à s’améliorer.

Deepseek appelle ce système auto-améliorant « Deepseek-Grm ». Les chercheurs ont déclaré que cela aiderait les modèles à mieux performer que des concurrents comme Google’s Gemini, Meta’s Llama et GPT-4O d’Openai.

Deepseek prévoit de rendre ces modèles d’IA avancés disponibles en tant que logiciel open source, mais aucun calendrier n’a été donné.

La sortie du journal intervient alors que les rumeurs tourbillonnent selon lesquelles Deepseek devrait dévoiler son dernier chatbot R2. Mais la société n’a pas commenté publiquement une telle nouvelle version.

Laisser un commentaire

1 × quatre =