Données d'entraînement
Les données d'entraînement désignent le corpus massif de textes utilisé pour former un modèle de langage (LLM). GPT-4 a été entraîné sur des centaines de milliards de mots provenant du web, de livres, d'articles et de conversations. Ces données déterminent ce que le modèle "sait" et, par extension, quelles marques et informations il peut mentionner naturellement dans ses réponses.
Composition des données d'entraînement
Common Crawl : Archive massive du web (des milliards de pages).
Livres et publications : Ouvrages numérisés, publications académiques.
Wikipedia et wikis : Sources structurées et vérifiées.
Code source : GitHub et autres dépôts.
Conversations et forums : Reddit, Stack Overflow.
Date de coupure : un concept clé
Chaque modèle a une "date de coupure" après laquelle il n'a plus appris de nouvelles informations. Les événements après la coupure sont inconnus du modèle (sans RAG).
Influencer les données d'entraînement
- Présence sur les sources clés (Wikipedia, Wikidata, forums techniques)
- Mentions sur des sites autoritaires (presse, publications sectorielles)
- Contenu abondant et indexé associant votre marque à vos sujets