"De Cauchy aux réseaux de neurones, la descente de gradient et ses variantes"
L’optimisation est une branche des mathématiques qui s’intéresse à la minimisation ou à la maximisation des fonctions. Son champ d’applications est très vaste : ingénierie, imagerie médicale, logistique, urbanisme, économie, intelligence artificielle, etc. De nombreux principes et outils mathématiques qui sont au cœur des techniques modernes d’optimisation ont émergé entre le 17e siècle et le début du 19e siècle avec les travaux fondateurs de Fermat, Leibniz, Newton, Bernoulli, Euler, Lagrange, Gauss… C’est dans ce contexte historique qu’Augustin Louis Cauchy introduit formellement en 1847, dans une brève note à l’Académie des Sciences, la méthode de descente de gradient (le gradient est une généralisation de la notion de dérivée aux dimensions supérieures à 1). Presque anodine lorsque Cauchy l’invente, cette méthode a pris au fil des ans une importance colossale en optimisation numérique, au point d’être aujourd’hui, dans ses multiples variantes, un outil clé en intelligence artificielle. L’exposé reviendra sur les aspects théoriques et numériques de la méthode de gradient (et ses variantes), de Cauchy à aujourd’hui, et sur ses applications et ses développements modernes : descente de gradient stochastique, méthodes de descente accélérée, entraînement de réseaux de neurones…
