- Distillation : transférer les connaissances d’un modèle plus grand et plus performant vers un modèle plus petit et plus rapide
- Apprentissage du style et du format de sortie : entraîner un modèle à respecter des formats de réponse, un ton ou une structure spécifiques
- Amorçage avant le RL : préentraîner un modèle avec des exemples supervisés avant d’appliquer l’apprentissage par renforcement pour l’affiner davantage
Pourquoi Serverless SFT ?
- Coûts d’entraînement réduits : en mutualisant l’infrastructure entre de nombreux utilisateurs, en évitant le processus de configuration pour chaque tâche et en ramenant vos coûts GPU à 0 lorsque vous n’êtes pas activement en entraînement, Serverless SFT réduit considérablement les coûts d’entraînement.
- Entraînement plus rapide : en provisionnant immédiatement l’infrastructure d’entraînement lorsque vous en avez besoin, Serverless SFT accélère vos tâches d’entraînement et vous permet d’itérer plus rapidement.
- Déploiement automatique : Serverless SFT déploie automatiquement chaque point de contrôle que vous entraînez. Vous n’avez donc pas besoin de configurer manuellement une infrastructure d’hébergement. Vous pouvez accéder immédiatement aux modèles entraînés et les tester dans des environnements locaux, de préproduction ou de production.
Comment Serverless SFT utilise les services W&B
- Inference : Pour exécuter vos modèles
- Models : Pour suivre les métriques de performances pendant l’entraînement de l’adaptateur LoRA
- Artifacts : Pour stocker et versionner les adaptateurs LoRA
- Weave (facultatif) : Pour bénéficier d’une meilleure observabilité de la façon dont le modèle répond à chaque étape de la boucle d’entraînement