×
google news

« Les mystères de la création de l’IA générative »

Le domaine de l’intelligence artificielle (IA) générative, comme celui de ChatGPT, Gemini, Copilot, etc., cache un secret bien gardé. Ce secret ne réside ni dans la capacité computationnelle impressionnante, ni dans l’envergure gigantesque (des centaines de milliards de paramètres) de ces programmes, ni dans des instructions informatiques ingénieuses. Même si ces éléments sont cruciaux pour la réussite, ils sont maintenant à peu près connus de tous.

Non, ce qui reste caché par les chefs de file dans le domaine, comme OpenAI, Anthropic, Mistral et Microsoft, c’est leur méthode de création de la bibliothèque de textes utilisée pour former leurs modèles. Cette formation a pour but d’optimiser les paramètres afin de prédire le meilleur terme pour terminer une phrase. En ingérant des milliards de textes, le système identifie des corrélations statistiques qui permettent de produire de nouveaux textes supposés répondre aux questions de l’utilisateur.

La provenance des textes est connue : livres du domaine public, articles de recherche, Wikipédia, mais surtout un vaste volume de pages web. Cette dernière source est prédominante, et c’est la façon dont elle est utilisée qui fait toute la différence.

« C’est le cœur du conflit », résume Julien Launay, fondateur de la société Adaptive ML et co-auteur d’un ensemble de données d’apprentissage provenant du web, RefinedWeb, lorsqu’il travaillait pour LightOn. Il se rappelle de l’étonnement suscité par son exposé à la conférence phare du domaine, NeurIPS, à La Nouvelle-Orléans, en Louisiane, en décembre 2022. L’attention portée à la préparation de ces données avait permis à une IA de rivaliser avec des concurrents dotés de données de sources plus diverses.

80 000 heures ont été consacrées à des calculs.

Thomas Wolf, l’un des fondateurs de Hugging Face, une plateforme d’origine franco-américaine dédiée à la distribution de modèles et corpus en open source, a invité l’équipe de Julien Launay à se joindre à son entreprise lors d’une conférence. Guilherme Penedo, un membre de l’équipe, accepte l’invitation, attiré par le projet de rendre disponible un corpus encore plus important que RefinedWeb.

Wolf pensait que le projet serait accompli en dix jours, mais il leur a fallu le multiplier par quinze. Le 21 avril, FineWeb a été lancé, un gigantesque corpus de 40 téraoctets, contenant 15 000 milliards de tokens – des sortes de syllabes constituées de trois à quatre lettres. Ce corpus, librement accessible, permet de développer des modèles de meilleur qualité que n’importe quel autre corpus public.

Cependant, la création d’un corpus de cette envergure est un défi de taille : 80 000 heures de calcul avec les cartes graphiques Nvidia H100 ont été requises, ce qui est similaire à l’effort nécessaire pour entraîner un bon modèle d’IA. La première étape consiste à obtenir les données. Depuis 2007, une fondation offre l’accès à Common Crawl, une collecte régulière de milliards de pages Web. Mais pour que ces données soient utiles aux modèles de langage, il faut en extraire uniquement le texte. C’est une tâche qui a pris peut-être 80% du temps de calcul total, que nous avons commencé en novembre 2023″, explique Guilherme Penedo. Ils ont utilisé quatre-vingt-seize paquets recueillis sur une période de quinze ans dans Common Crawl, pour un total d’environ 5 354 téraoctets.

La suite de cet article est réservée aux abonnés.

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*


Lire aussi

example 1048
Actualité

Roumanie double quotas abattage ours

15 juillet 2024
Dans les jours suivant le décès tragique d'une promeneuse emportée par un ours, le gouvernement roumain a pris une décision radicale. Le lundi 15 juillet, la législation permettant l'extermination d'approximativement…
example 1047
Actualité

« Giroud quitte l’équipe de France »

15 juillet 2024
Olivier Giroud, l'attaquant français le plus prolifique de l'histoire des Bleus, a officiellement annoncé lundi 15 juillet qu'il faisait ses adieux à l'équipe nationale. Giroud, qui prévoit de jouer pour…
example 1045
Actualité

« Attentat contre Trump: Enquête et Convention Républicaine »

15 juillet 2024
La diffusion en direct a été présentée par plusieurs contributeurs, dont Laurent Borredon, Cécile Bouanchaud, Pierre Bouvier, Minh Dréan, Jacky Goldberg, Solène L’Hénoret et Ramzy Bensaadi (photographies). - L'ex-chef d'État…
example 1044
Actualité

« Le groupe criminel des Grignard a été révélé »

15 juillet 2024
Odile Eisenstein, une chimiste française retraitée du CNRS, se remémore un jour précis en mai 2015. Elle venait d'être élue à l'Académie norvégienne des sciences et des lettres et l'Université…