Deepseek-R1, le dernier d’une série de modèles développé avec moins de puces et à faible coût, remet en question la domination d’Openai, Google et Meta.
Le modèle éponyme de grande langue (LLM) a stupéfait le modèle de grande langue (LLM) du laboratoire artificiel chinois (LLM).
Les derniers modèles Deepseek, publiés ce mois-ci, seraient à la fois extrêmement rapides et à faible coût.
Le Deepseek-R1, le dernier des modèles développé avec moins de jetons, conteste déjà la domination de joueurs géants tels que Openai, Google et Meta, envoyant des actions dans le fabricant de puces Nvidia plongeant lundi.
Voici ce que nous savons du perturbateur de l’industrie de la Chine.
D’où vient Deepseek?
La société de Hangzhou, en Chine, a été fondée en juillet 2023 par Liang Wenfeng, ingénieur de l’information et de l’électronique et diplômé de l’Université de Zhejiang.
Cela faisait partie du programme d’incubation de High Flyer, un fonds liang fondé en 2015. Liang, comme d’autres noms de premier plan de l’industrie, vise à atteindre le niveau de « l’intelligence générale artificielle » qui peut rattraper ou dépasser les humains dans diverses tâches .
Opérant indépendamment, le modèle de financement de Deepseek lui permet de poursuivre des projets d’IA ambitieux sans pression d’investisseurs extérieurs et de hiérarchiser la recherche et le développement à long terme.
L’équipe de Deepseek est composée de jeunes diplômés des meilleures universités chinoises, avec un processus de recrutement d’entreprise qui privilégie les compétences techniques sur l’expérience de travail.
En bref, il est considéré comme ayant une nouvelle perspective dans le processus de développement de modèles d’intelligence artificielle.
Le voyage de Deepseek a commencé en novembre 2023 avec le lancement de Deepseek Coder, un modèle open source conçu pour le codage des tâches.
Cela a été suivi par Deepseek LLM, qui visait à rivaliser avec d’autres modèles de langage majeurs. Deepseek-V2, libéré en mai 2024, a gagné du terrain en raison de ses performances solides et de son faible coût.
Il a également forcé d’autres grands géants de la technologie chinoise tels que Bytedance, Tencent, Baidu et Alibaba pour réduire les prix de leurs modèles d’IA.
Quelle est la capacité des modèles Deepseek?
Deepseek-V2 a ensuite été remplacé par Deepseek-Coder-V2, un modèle plus avancé avec 236 milliards de paramètres.
Conçu pour des invites de codage complexes, le modèle a une fenêtre de contexte élevé de jusqu’à 128 000 jetons.
Un jeton est une unité dans un texte. Cette unité peut souvent être un mot, une particule (comme «artificiel» et «intelligence») ou même un personnage. Par exemple: « L’intelligence artificielle est géniale! » Peut être composé de quatre jetons: « artificiel », « intelligence », « grand », « ! ».
Une fenêtre de contexte de 128 000 jetons est la longueur maximale du texte d’entrée que le modèle peut traiter simultanément.
Une fenêtre de contexte plus grande permet à un modèle de comprendre, résumer ou analyser des textes plus longs. C’est un grand avantage, par exemple, lorsque vous travaillez sur de longs documents, des livres ou des dialogues complexes.
Les derniers modèles de la société Deepseek-V3 et Deepseek-R1 ont consolidé davantage sa position.
Un modèle de 671 000 paramètres, Deepseek-V3 nécessite beaucoup moins de ressources que ses pairs, tout en effectuant de manière impressionnante dans divers tests de référence avec d’autres marques.
Le Deepseek-R1, qui a été lancé ce mois-ci, se concentre sur des tâches complexes telles que le raisonnement, le codage et les mathématiques. Avec ses capacités dans ce domaine, il défie O1, l’un des derniers modèles de Chatgpt.
Bien que Deepseek ait connu un succès significatif en peu de temps, la société se concentre principalement sur la recherche et n’a aucun plan détaillé de commercialisation dans un avenir proche, selon Forbes.
Est-ce gratuit pour l’utilisateur final?
L’une des principales raisons pour lesquelles Deepseek a réussi à attirer l’attention est qu’il est gratuit pour les utilisateurs finaux.
Il s’agit du premier système d’IA avancé de ce type disponible gratuitement pour les utilisateurs. D’autres systèmes puissants tels que Openai O1 et Claude Sonnet nécessitent un abonnement payant. Même certains abonnements imposent des quotas aux utilisateurs.
Google Gemini est également disponible gratuitement, mais les versions gratuites sont limitées aux anciens modèles. Deepseek n’a aucune limitation pour l’instant.
Comment l’utiliser?
Les utilisateurs peuvent accéder à l’interface de chat Deepseek développée pour l’utilisateur final à « Chat.deepseek ». Il suffit de saisir les commandes sur l’écran de chat et d’appuyer sur le bouton « Rechercher » pour rechercher sur Internet.
Il existe une option de « réflexion profonde » pour obtenir des informations plus détaillées sur n’importe quel sujet. Bien que cette option fournisse des réponses plus détaillées aux demandes des utilisateurs, il peut également rechercher plus de sites dans le moteur de recherche. Cependant, contrairement à Chatgpt, qui ne recherche qu’en s’appuyant sur certaines sources, cette fonctionnalité peut également révéler de fausses informations sur certains petits sites. Par conséquent, les utilisateurs doivent confirmer les informations qu’ils obtiennent dans ce bot de chat.
Est-ce sûr?
Une autre question importante sur l’utilisation de Deepseek est de savoir s’il est sûr. Deepseek, comme d’autres services, nécessite des données utilisateur, qui sont probablement stockées sur des serveurs en Chine.
Comme pour tout LLM, il est important que les utilisateurs ne donnent pas de données sensibles au chatbot.
Étant donné que Deepseek est également open-source, les chercheurs indépendants peuvent examiner le code du modèle et essayer de déterminer s’il est sécurisé. Des informations plus détaillées sur les problèmes de sécurité devraient être publiées dans les prochains jours.
Que signifie open source?
Les modèles, dont Deepseek-R1, ont été publiés en grande partie open source. Cela signifie que n’importe qui peut accéder au code de l’outil et l’utiliser pour personnaliser le LLM. Les données de formation sont propriétaires.
Openai, en revanche, avait publié le modèle O1 fermé et le vend déjà aux utilisateurs uniquement, même aux utilisateurs, avec des packages de 20 $ à 200 $ par mois.
Comment a-t-il produit un tel modèle malgré les restrictions américaines?
La société a également établi des partenariats stratégiques pour améliorer ses capacités technologiques et sa portée de marché.
L’une des collaborations notables a été avec la société américaine de puces AMD. Selon Forbes, Deepseek a utilisé AMD Instinct GPU (Unités de traitement graphique) et le logiciel ROCM aux étapes clés du développement du modèle, en particulier pour Deepseek-V3.
MIT Technology Review a indiqué que Liang avait acheté des stocks importants de puces NVIDIA A100, un type actuellement interdit pour l’exportation vers la Chine, bien avant les sanctions américaines des puces contre la Chine.
Chinese Media Outlet 36KR estime que la société a plus de 10 000 unités en stock. Certains disent que ce chiffre est de 50 000.
Réalisant l’importance de ce stock pour la formation de l’IA, Liang a fondé Deepseek et a commencé à les utiliser en conjonction avec des puces à faible puissance pour améliorer ses modèles.
Mais le point important ici est que Liang a trouvé un moyen pour construire des modèles compétents avec peu de ressources.
Les restrictions d’exportation des puces américaines ont forcé les développeurs Deepseek à créer des algorithmes plus intelligents et plus économes en énergie pour compenser leur manque de puissance de calcul.
On pense que ChatGpt a besoin de 10 000 GPU NVIDIA pour traiter les données de formation. Les ingénieurs Deepseek disent avoir obtenu des résultats similaires avec seulement 2 000 GPU.