JetBrains annonce que Mellum2 devient open source : un modèle de langage rapide conçu pour des workflows d’IA, combinant des capacités de programmation et de langage naturelJetBrains est une société à responsabilité limitée internationale spécialisée dans le développement de logiciels, qui conçoit des outils destinés aux développeurs et aux chefs de projet. JetBrains propose divers environnements de développement intégrés (EDI), tels que IntelliJ IDEA, PyCharm, WebStorm et CLion. Elle a également créé en 2011 le langage de programmation Kotlin, qui peut s'exécuter dans une machine virtuelle Java (JVM).
JetBrains Mellum est une gamme de modèles de langage rapides conçus pour des charges de travail d'IA efficaces dans le monde réel. Ce qui a commencé comme un modèle axé sur le code a évolué pour prendre en charge à la fois les tâches de programmation et de langage naturel, ce qui permet une inférence rapide et économique dans un large éventail de cas d'utilisation. Mellum2 est un modèle open source de type MoE à 12 milliards de paramètres, « conçu pour des workflows en temps réel, combinant de fortes capacités de programmation et de langage à une efficacité exceptionnelle. »
Récemment, JetBrains annonce que Mellum2 devient open source. JetBrains déclare : « Entraîné à partir de zéro et conçu pour un déploiement pratique, Mellum2 est conçu pour le routage, les questions-réponses, les sous-agents et l’utilisation de l’IA privée dans les systèmes d’ingénierie logicielle. Aujourd’hui, nous passons Mellum2 en open source. C’est un modèle de 12 milliards de paramètres, conçu pour résoudre les aspects les plus complexes de l’IA en production : latence, débit et coût. Créé à partir de zéro et distribué sous la licence Apache 2.0, Mellum2 offre une alternative hautement performante et économique pour votre infrastructure. »
Présentation de Mellum2
Mellum2 est conçu pour résoudre les goulots d’étranglement dans les systèmes à l’échelle de la production grâce à son architecture et à sa conception axées sur l’efficacité.
- Conception MoE (Mixture-of-Experts) : le modèle comporte 12 milliards de paramètres au total, mais grâce à sa conception MoE, seuls 2,5 milliards de paramètres sont actifs par jeton. Cela réduit les coûts de calcul, tout en permettant une inférence à haut débit et à faible latence pour les charges de travail en temps réel.
- Spécialisation : contrairement à de nombreux modèles modernes, Mellum2 n’est pas multimodal. Il est entraîné spécifiquement sur des données en langage naturel et en code. Cette spécialisation garantit que le modèle excelle dans les environnements d’ingénierie logicielle tout en restant léger et rapide.
Dans son rapport technique, JetBrains détaille les performances du modèle sur des benchmarks de génération de code, de science, de mathématiques et de raisonnement. Mellum2 offre des performances comparables à celles d’autres modèles de taille similaire, tout en réduisant le temps d’inférence de plus de moitié, ce qui constitue un avantage significatif dans les environnements de déploiement de production.
Voici les principaux cas d’utilisation de Mellum2 :
- Router et orchestrer les charges de travail d’IA : utilisez Mellum2 pour analyser les instructions génératives entrants et aider à sélectionner le modèle ou l’outil approprié pour chaque tâche.
- Construire des pipelines RAG à faible latence : récupérez le contexte pertinent, utilisez Mellum2 pour le résumer et générez des réponses instantanément.
- Créer des sous-agents rapides dans des workflows complexes : décomposez les pipelines d’agents en plusieurs étapes, comme la collecte du contexte, la planification et la validation. Utilisez Mellum2 pour effectuer des tâches rapides et spécialisées au lieu de vous fier à un seul grand modèle.
- Permettre un déploiement d’IA privée et locale : exécutez Mellum2 localement ou hébergez-le vous-même pour garder le contrôle sur le code et les données.
La philosophie du « modèle focal » : pourquoi les modèles focalisés sont plus évolutifs
À mesure que les systèmes d’IA se complexifient, les goulots d’étranglement des performances se déplacent de la capacité pure vers les problèmes de latence, de débit et de coût à grande échelle. Toutes les tâches ne nécessitent pas le modèle le plus grand. De nombreuses étapes des systèmes d’IA modernes sont répétitives, sensibles à la latence et exécutées à haute fréquence. Pour ces étapes, un modèle rapide et stable pouvant être routé, hébergé et contrôlé efficacement, est plus bénéfique.
Dans ce contexte, l'équipe de JetBrains déclare : « Chez JetBrains, nous pensons que l’avenir est aux systèmes coordonnés, et non aux modèles uniques. Les modèles de pointe continueront à repousser les limites, mais les produits d’IA pratiques nécessitent également des modèles focaux : des composants rapides et spécialisés qui traitent efficacement des tâches à haute fréquence. C’est le rôle que nous envisageons pour Mellum2 dans l’écosystème des outils logiciels d’IA de nouvelle génération. »
Si vous créez des systèmes d’IA pour l’ingénierie logicielle (que ce soit dans un EDI, dans un pipeline RAG, dans le cadre d’un workflow d’agent, ou entièrement sur votre propre infrastructure), vous pouvez essayer Mellum2. L’open source permet de créer de meilleurs outils.
Essayer Mellum2
Vous avez lu gratuitement 2 680 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.