IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Mellum devient open source : un LLM de JetBrains spécialement conçu pour les développeurs, maintenant sur Hugging Face

Le , par Jade Emy

26PARTAGES

5  0 
Mellum devient open source : un LLM de JetBrains spécialement conçu pour les développeurs, maintenant sur Hugging Face

Mellum n’a pas vocation à tout savoir et tout faire. Il est conçu pour effectuer un type de tâche, à savoir la saisie semi-automatique du code. C’est ce que JetBrains appele un modèle focal : un modèle disposant d’une expertise ciblée et conçu pour un usage spécifique, ne cherchant pas à couvrir tous les domaines.

Mais la saisie semi-automatique de code n’est qu’un début. L’évolution de Mellum consisterait dans le développement d’un ensemble de modèles focaux dont chacun sera spécialisé dans la réalisation d’une tâche différente, de la saisie semi-automatique de code à la prédiction de diff et au-delà.

Dans cette optique, JetBrains annonce que le modèle de base est désormais open source et disponible sur Hugging Face. Que vous vouliez créer des outils ou faire des expériences pour des recherches, ou que vous soyez simplement curieux, JetBrains vous offre un accès complet à Mellum. Pour rappel, Mellum prend en charge la saisie semi-automatique de code pour Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust et Ruby.


Pourquoi rendre Mellum open source ? Voici la réponse de JetBrains :

Cette question a fait l’objet de nombreuses discussions en interne.

Mellum n’est pas qu’une simple version améliorée d’un modèle open source. C’est un modèle que nous avons entraîné à partir de zéro pour alimenter la complétion de code basée sur le cloud dans les IDE JetBrains et mis en disposition générale l’année dernière. C’est aussi le premier d’une future gamme de modèles spécialisés dans la réalisation de tâches de programmation.

Alors pourquoi avoir finalement opté pour l’open source ?

Parce que nous croyons en la transparence et en la puissance de la collaboration et du partage du progrès. De Linux à Git, en passant par Node.js et Docker, l’open source est à l’origine de plusieurs des avancées technologiques les plus importantes. Les LLM open source surpassant désormais certains des modèles de leaders du secteur, on peut raisonnablement supposer que l’évolution générale de l’IA pourrait suivre une trajectoire similaire.

Mellum n’est pas une solution plug-and-play. En le publiant sur Hugging Face, nous offrons aux chercheurs, aux enseignants et aux équipes, l’opportunité d’explorer les rouages et le fonctionnement d’un modèle conçu pour un usage spécifique.
Qu’est-ce qu’un modèle focal ?

Dans le domaine du machine learning, la spécialisation n’est pas une nouveauté : il s’agit d’une approche fondamentale qui a guidé la conception de modèles depuis des décennies, avec des modèles conçus pour résoudre des tâches spécifiques de manière efficace et efficiente. En cours de route, les modèles à usage général cherchant à pouvoir tout faire ont connu un essor significatif, engendrant souvent des coûts énormes en matière de calculs et d’impact environnemental.

Les modèles focaux reviennent à ce principe originel : créer des modèles permettant d’exceller dans un domaine.

Les modèles focaux s’appuient sur le modèle de compétences en T : un concept dans lequel une personne possède une compréhension large sur de nombreux sujets (la barre supérieure horizontale du T représentant l’étendue de ses connaissances), mais une expertise approfondie dans un seul domaine spécifique (la barre verticale du T représentant la profondeur). Ils ne sont pas conçus pour tout traiter mais pour être spécialisés et exceller dans la réalisation d’un type de tâche, pour laquelle l’expertise apporte vraiment de la valeur.

Mellum serait un exemple. Il s’agit d’un petit modèle conçu spécifiquement pour les tâches liées au code, à commencer par la saisie semi-automatique de code.

JetBrains commente notamment :

Pourquoi avons-nous adopté cette approche ? Parce que tous les problèmes ne requièrent pas une solution généraliste et que toutes les équipes n’ont pas besoin d’exécuter de grands modèles ou les ressources pour le faire.

Les modèles focaux comme Mellum offrent des avantages évidents :

  • Précision spécialement pensée pour les tâches spécifiques à un domaine
  • Optimisation des coûts d’exécution et de déploiement
  • Réduction des besoins en calcul et de l’empreinte carbone
  • Plus grande accessibilité pour les chercheurs, les enseignants et les petites équipes

Ce n’est pas un pas en arrière : il s’agit d’appliquer des principes de spécialisation éprouvés aux enjeux actuels de l’IA. Nous considérons cette approche comme plus intelligente.
Quelles sont les performances de Mellum ?

Mellum est un modèle multilangage à 4 milliards de paramètres, optimisé spécifiquement pour la saisie semi-automatique du code. Voici les évaluations de Mellum sur plusieurs ensembles de données en plusieurs langages, ainsi que les évaluations humaines approfondies dans les EDI JetBrains.


JetBrains conclut son annonce :

À qui Mellum est destiné (et à qui ne l’est-il pas)

Soyons réalistes : nous ne nous attendons évidemment pas à ce que tout développeur voit un intérêt à affiner ou à déployer Mellum.

La version actuelle de Mellum sur Hugging Face est avant tout destinée aux :

  • Chercheurs en IA/ML : en particulier ceux qui travaillent sur des sujets comme le rôle de l’IA dans le développement logiciel ou l’interprétabilité des modèles, ou ceux qui font des benchmarks.
  • Ingénieurs et enseignants en IA/ML : en tant que base pour apprendre à créer, affiner et adapter des modèles de langage spécifiques à un domaine, ou pour soutenir des programmes éducatifs sur l’architecture et la spécialisation de LLM.


Essayer Mellum

Mellum est maintenant accessible sur Hugging Face. Ce n’est que le début. Si la mise à disposition de Mellum en open source permettait la réalisation d’une expérience, d’une contribution ou d’une collaboration significative, cela serait déjà une grande satisfaction pour nous.

Alors n’hésitez pas à vous joindre à nous et à essayer Mellum.
Découvrez Mellum sur Hugging Face
Vous avez lu gratuitement 17 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !