Le Tech Away revient ce mois-ci avec un changement important : je rédige cette édition du Tech Away (et de prochaines éditions aussi) avec
, avec qui nous discutons rĂ©guliĂšrement de veille et qui dirige la practice Machine Learning & GenAI chez OCTO Technology. Si le Tech Away abordait de temps en temps des sujets IA par le passĂ©, attendez vous donc Ă en voir plus rĂ©guliĂšrement :) đ§ đ€Sans plus attendre, voici donc le menu de veille Ă emporter pour ce mois-ci :
đđ€ All I want for Christmas is AGI?
đđ Environnements Ă©phĂ©mĂšres antĂ©-production : arrĂȘtez de faire du "pet", faites du "cattle"
đïžđ€ 4 choses que jâai apprises Ă GenerationAI
đȘ°đ Construire des systĂšmes hautement rĂ©silients, TigerBeetle style
đđ€ All I want for Christmas is AGI?
Par
Vous aimez les calendriers de lâavant et la GenAI ? Alors vous allez adorer la sĂ©rie de vidĂ©os "12 Days of OpenAI" : 12 vidĂ©os pour prĂ©senter des nouveautĂ©s chez OpenAI. Plus sĂ©rieusement, je voulais vous parler dâune annonce faite dans la 12Ăšme vidĂ©o de cette sĂ©rie : la sortie dâo3 et o3-mini, et leurs capacitĂ©s de rĂ©flexion avancĂ©e. Et plus particuliĂšrement de son score sur le benchmark ARC-AGI, annoncĂ© Ă cette occasion par le PrĂ©sident de lâARC Prize Foundation.
Mais quâest-ce ARC-AGI ? Câest un benchmark construit par François Chollet en 2019, conçu pour mesurer la capacitĂ© d'abstraction et de gĂ©nĂ©ralisation d'une intelligence (artificielle ou naturelle). Je vous invite Ă regarder des exemples issus du benchmark dans le papier de recherche ou sur une explication plus concise pour mieux comprendre le type de tĂąches quâil Ă©value. Mais, en deux mots, ça ressemble Ă un test de QI : il s'agit de rĂ©pondre Ă une tĂąche non explicitement dĂ©finie en la dĂ©duisant d'une sĂ©rie d'exemples. Ce sont des problĂšmes relativement simples pour des humains (environ 75% de bonnes rĂ©ponses pour une personne recrutĂ©e via Mechanical Turk, presque 100% pour une personne diplĂŽmĂ©e en sciences), mais complexes pour une IA (GPT-3 avait un score de 0% en 2020, GPT-4o de 5% en 2024)⊠enfin, jusquâĂ maintenant.
Lâannonce principale de cette vidĂ©o est que le score dâo3 sur ce benchmark a effectuĂ© un saut qualitatif par rapport Ă tous les autres modĂšles, dĂ©passant par exemple la performance d'un humain moyen sur Mechanical Turk et les 53,5% du meilleur modĂšle sur Kaggle. Je vous laisse lire ces rĂ©sultats pour plus de dĂ©tails sur les scores, parce que c'est compliquĂ© (notamment selon le budget de compute quâon alloue Ă o3, le set de donnĂ©es sur lesquels les uns et les autres sont Ă©valuĂ©sâŠ).
â ïž Une polĂ©mique a Ă©clatĂ© sur les rĂ©seaux sur la sincĂ©ritĂ© de ces rĂ©sultats. Affaire Ă suivreâŠ

Donc câest bon, lâAGI est lĂ ? Alors, non, pas encore. Dans ce thread, François Chollet parle de plusieurs tĂąches simples quâo3 nâarrive pas Ă rĂ©soudre, et nous fait un teasing de la version 2 de ce benchmark Ă prĂ©sent saturĂ©, pour laquelle o3, entraĂźnĂ© sur les donnĂ©es publiques de la version 1, aurait du mal Ă performer.

Reste la question des coĂ»ts financier đž et environnemental đ. Aujourd'hui, un humain dans un pays Ă bas salaire peut rĂ©soudre un problĂšme d'ARC-AGI pour moins cher qu'o3 (5$ la tĂąche contre 20$ pour la version low compute⊠et quelques milliers de dollars pour le high compute !). Soulignons que le coĂ»t financier est forcĂ©ment corrĂ©lĂ© Ă lâimpact environnemental des modĂšles. Boris Gamazaychikov , head of AI sustainability chez Salesforce a fait le calcul pour nous : la version high compute Ă©met lâĂ©quivalent de 5 pleins dâessence par tĂąche ! Câest 172 fois moins pour la version low compute, et bien sĂ»r virtuellement 0 pour lâhumain. Si la tendance Ă la chute des prix tirĂ©e par la concurrence et lâoptimisation des calculs se confirme, comme on le voit dĂ©jĂ avec DeepSeek R1 (13 fois moins cher quâo1 pour le mĂȘme niveau de performances), cela pourrait nĂ©anmoins diminuer fortement. Mais est-il aussi pertinent sur des tĂąches de la vraie vie ? Rendez-vous Ă la sortie du modĂšle pour le dĂ©couvrir !
Lâarticle du blog dâARC Prize, analysant les rĂ©sultats dâo3 sur leur benchmark
đđ Environnements Ă©phĂ©mĂšres antĂ©-production : arrĂȘtez de faire du "pet", faites du "cattle"
Par
Comme je vous en parlais dans la derniĂšre Ă©dition, jâai rĂ©digĂ© un article de blog sur la pratique des environnements Ă©phĂ©mĂšres et des review apps.
Voici un lien vers cet article, nâhĂ©sitez pas Ă me dire ce que vous en avez pensĂ© !
âPet versus Cattleâ est une allĂ©gorie couramment utilisĂ©e en informatique pour signifier un changement de mindset dans notre rapport aux ressources informatiques. Cet article prĂ©sente une application de ce principe, non pas comme on le fait habituellement en raisonnant Ă la maille dâun serveur mais Ă la maille dâenvironnements complets. Exit les traditionnels environnements pĂ©rennes DEV, UAT, STG, ⊠lâidĂ©e ici est de sâoutiller pour pouvoir construire et dĂ©truire rĂ©guliĂšrement des environnements, Ă chaque fois quâune hypothĂšse (de delivery ou de discovery) doit ĂȘtre testĂ©e.
âčïž La fin de cet article đ propose des ressources pour aller plus loin et que jâai dĂ©jĂ Ă©voquĂ© dans le Tech Away, comme le blog de Werner Vogels (The Frugal Architect) sur lâĂ©coconception, ou encore le blog de Yan Cui (The Burning Monk) sur comment tirer parti des environnements Ă©phĂ©mĂšres quand on fait du serverless
đïžđ€ 4 choses que jâai apprises Ă GenerationAI
Par
DĂ©but dĂ©cembre, j'ai participĂ© Ă la confĂ©rence GĂ©nĂ©rationAI, une confĂ©rence autour de lâIA gĂ©nĂ©rative qui a eu lieu Ă Paris. Le line-up Ă©tait trĂšs intĂ©ressant, avec des acteurs français et internationaux, du monde de la recherche et des grands acteurs de lâĂ©cosystĂšme. Voici 4 choses qui m'ont marquĂ©e ou que j'y ai apprises.
1. On adore la philosophie Accelerate de Dust
Quelques idĂ©es de Gabriel Hubert, CEO de Dust, ont raisonnĂ© avec mon esprit Accelerate. Adopter la GenAI en entreprise en la mettant rapidement entre les mains des utilisateurs pour aborder le problĂšme par la valeur mĂ©tier. Une belle façon d'aller en production au plus vite plutĂŽt que de se perdre dans du sur-design đ„. J'ai retenu de l'approche proposĂ©e le besoin d'outiller et former toute l'organisation Ă la GenAI. Et, bien sĂ»r, rendre accessible largement la donnĂ©e de l'entreprise pour dĂ©couvrir des cas d'usage utiles et souvent transverses.
Et c'est vrai que Dust est un formidable outil pour embarquer les mĂ©tiers sur les cas dâusage de lâIA (je travaille avec en ce moment). Mais nâoublions pas que Dust ne peut pas tout faire, et que lâintĂ©gration dâoutils complĂ©mentaires, notamment d'observabilitĂ©, reste essentielle pour passer Ă l'Ă©chelle et fiabiliser les cas d'usage les plus stratĂ©giques. Je vous parlerai de mon REX probablement lors d'un prochain Ă©pisode !
2. OpenAI : toujours les rois de la démo
Vous n'avez pas encore reçu un coup de fil de ChatGPT ? Katia Gil Guzman, la speakeuse d'OpenAI, si. Incarnant une cliente voulant Ă©changer son tĂ©lĂ©phone dĂ©fectueux, elle demande Ă ChatGPT des informations sur les produits disponibles dans une boutique. Ce dernier appelle la (fausse) boutique (dont elle interprĂšte Ă©galement la responsable). Et a une discussion Ă un niveau quasi-humain avec elle. J'ai hĂąte de me faire spammer par ChatGPT au tĂ©lĂ©phone đ„Č.
Pro tip : si votre interlocuteur est beaucoup trop enthousiaste au sujet des couleurs de téléphone disponibles dans votre boutique... c'est que c'est une IA
3. Un des indicateurs de performance mesurés par l'équipe Gemma est la "finetunnabilité" de ses modÚles
Thomas Mesnard, co-auteur de Gemma, nous a partagĂ© qu'un des critĂšres d'Ă©valuation de leurs modĂšles Ă©tait leur "finetunnabilitĂ©". QuĂ©sako ? DâaprĂšs notre speaker, c'est ĂȘtre capable de sortir facilement de sa "vallĂ©e de convergenceâ sans besoin de trop de donnĂ©es supplĂ©mentaires.
On saluera cette démarche centrée utilisateurs : un des principaux cas d'usage pour les modÚles open-source est en effet de les spécialiser sur un contexte, des données ou une tùche précises. à quand un benchmark pour nous aider à choisir le modÚle le plus "finetunnable" ?
4. Votre few-shots learning atteint ses limites ? Rendez-le dynamique !
Michal Valko, chercheur chez Meta, part de ce constat : lorsqu'un agent a besoin de réaliser des tùches trop diversifiées, les exemples de son prompt ne sont pas toujours adaptés à la tùche à effectuer. Il nous propose donc une approche dynamique (voir son papier) :
Constituer un rĂ©fĂ©rentiel dâexemples ;
Utiliser un (grand) LLM pour labelliser les compétences associées à chacun de ces exemples (trigonométrie, algÚbre, ...) - ces labels sont suggérés par le LLM ;
Utiliser un (petit) LLM pour dĂ©terminer les compĂ©tences nĂ©cessaires Ă l'accomplissement de la requĂȘte de l'utilisateur ;
Injecter dynamiquement des exemples correspondant à ces compétences en tant qu'exemples pour le few shot learning
Les résultats sont intéressants. à utiliser uniquement si le few-shot ne marche pas, bien sûr #yagni
Pour aller plus loin
Le récapitulatif de la conférence dans la newsletter de GenerationAI
Le papier de recherche de Gemma
Le papier de recherche sur lâapproche dynamique du few-shot learning
đȘ°đ
Construire des systÚmes hautement résilients, TigerBeetle style
Par
Fin 2024, jâai dĂ©couvert TigerBeetle, une nouvelle base de donnĂ©es implĂ©mentĂ©e from scratch pour rĂ©pondre Ă des cas dâusage de transactions financiĂšres distribuĂ©es, avec lâambition dâĂȘtre 1000x plus performante que les systĂšmes Ă lâĂ©tat de lâart en 2021 (rien que ça).
Jâai dĂ©couvert cette base de donnĂ©es au travers dâune prĂ©sentation de celle-ci, animĂ©e par Joran Greef, le fondateur de la sociĂ©tĂ© au mĂȘme nom que la base de donnĂ©es. Et câest une des prĂ©sentations tech qui mâa le plus impressionnĂ© ces 5 derniĂšres annĂ©es (en termes de rythme, de delivery, de patte graphique, ou simplement par le sujet) !
Il avance quelques arguments intéressant pour justifier la construction de cette base à partir de zéro, voici quelques citations piochées dans la vidéo :
On ne peut pas construire un systĂšme financier performant en prenant une base general purpose et en y rajoutant 10.000 lignes de code dâenregistrement de dĂ©bits et de crĂ©dits
Nous vivons dans un monde de + en + transactionnel : les systĂšmes financiers doivent fonctionner mille fois plus vite quâauparavant, car les transactions deviennent plus petites et plus frĂ©quentes
Les bases de donnĂ©es les plus populaires (Postgres, MySQL, âŠ) ont entre 20 et 30 ans et ont Ă©tĂ© conçues pour un monde et une Ă©chelle diffĂ©rents
Pour construire une telle base de donnĂ©es, des choix forts ont Ă©tĂ© fait comme coder dans le langage Zig, miser sur un modĂšle de scalabilitĂ© vertical plutĂŽt quâhorizontal, ou dĂ©velopper un systĂšme custom de gestion des pannes de disque.
En particulier, ils ont adoptĂ© une mĂ©thodologie de programmation et de test quâils ont nommĂ© âprogrammation TigerBeetle styleâ, inspirĂ©e des 10: Rules for Developing Safety-Critical Code de la NASA đ
On peut noter par exemple :
avoir des assertions présentes dans le code source, évaluées au runtime pour vérifier la validité de propriétés du systÚme et générer automatiquement des issues Github en cas de crash avec les éléments de contexte nécessaires pour reproduire le bug,
privilĂ©gier lâallocation de mĂ©moire statique Ă une allocation dynamique,
ou encore mettre en place un systĂšme de simulation dĂ©terministe permettant de tester le fonctionnement de la base de donnĂ©es pendant lâĂ©quivalent de plusieurs siĂšcles en lâespace de quelques jours, avec un simulateur capable dâaccĂ©lĂ©rer le temps đ€Ż
đź Et comme ce sont des passionnĂ©s, ils ont habillĂ© leur simulateur Ă la maniĂšre dâun jeu vidĂ©o, avec des animations pour les requĂȘtes entre les nĆuds, les pannes disques, les pannes rĂ©seaux, lâisolation du quorum âŠ
La vidéo de présentation de cette base de données
10min de prĂ©sentation, 10min de dĂ©mo, 20 min dâĂ©changes avec lâhĂŽte @ThePrimeagen
La documentation des guidelines TigerBeetle Style