La société xAI, fondée par le milliardaire Elon Musk, annonce dans un blog post, la publication du modèle de base et de l’architecture réseau de Grok-1, le modèle de langage géant ! Grok-1 est un modèle à 314 milliards de paramètres de type » Mixture-of-Experts » (MoE) entraîné par xAI à partir de zéro.
Le checkpoint du modèle de base issu de la phase de pré-entraînement de Grok-1, qui s’est achevée en octobre 2023. Cela signifie que le modèle n’est pas affiné pour une application spécifique, comme le dialogue.
Les « Weights » et l’architecture sont publiés sous la licence Apache 2.0, vous permettant une utilisation libre et ouverte.
Pour commencer à utiliser le modèle:
Rendez-vous sur le dépôt Github https://github.com/grokxai pour suivre les instructions d’utilisation.
Détails du modèle Grok-1:
- Modèle de base entraîné sur une grande quantité de données textuelles, non affiné pour une tâche particulière.
- Modèle MoE de 314 milliards de paramètres avec 25% des « Weights » actifs sur un jeton donné.
- Entraîné à partir de zéro par xAI en octobre 2023 en utilisant une pile d’entraînement personnalisée basée sur JAX et Rust.
Share this content: