Commit 16f6bd8d authored by Calcul Bot's avatar Calcul Bot
Browse files

Adding new job offer job_94439730ad60e302e0cc5678abebd45d

parent 3f2641bf
Pipeline #6313 passed with stages
in 34 seconds
Title: Méthodes d'optimisation stables et parallèles pour l'apprentissage avec de grandes données
Date: 2020-03-02 12:46
Slug: job_94439730ad60e302e0cc5678abebd45d
Category: job
Authors: Ibtihel BEN GHARBIA
Email: ibtihel.ben-gharbia@ifp.fr
Job_Type: Thèse
Tags: these
Template: job_offer
Job_Location: Rueil Malmaison
Job_Duration: 3 ans
Job_Website: https://www.ifpenergiesnouvelles.fr/
Job_Employer: IFP Énergies Nouvelles
Expiration_Date: 2020-06-25
Attachment: job_94439730ad60e302e0cc5678abebd45d_attachment.pdf
La méthode du gradient stochastique est la technologie actuellement prédominante pour effectuer la phase d’entraînement des réseaux de neurones. Cette méthode exploite la structure spécifique de la fonction coût à minimiser dont on cherche le gradient. Par rapport à une méthode classique de descente, le calcul du vrai gradient est remplacé, en tant que moyenne sur le nombre de données, par un élément aléatoire de la somme, d’où la dénomination gradient stochastique. En présence de beaucoup de données, cette approximation audacieuse présente l’avantage de diminuer drastiquement le nombre d’évaluations de gradients élémentaires et d’alléger notablement le coût de chaque itération. En revanche, cette méthode présente plusieurs défauts, notamment les oscillations dues à la mauvaise qualité de l’approximation et la lenteur de convergence due à la prise en compte uniquement des dérivées premières de la fonction objectif.
L’objectif de cette thèse est de concevoir une approche à la fois : (i) plus robuste, en faisant appel aux méthodes fondamentales qui ont fait leur preuve en optimisation classique, i.e., en dehors du cadre de l’apprentissage ; et (ii) plus rapide, en adaptant les algorithmes aux architectures parallèles des ordinateurs. Nous nous intéressons plus particulièrement aux méthodes de second ordre qui sont connues pour leur stabilité et leur rapidité de convergence en nombre d’itérations. Le goulot d’étranglement de ces méthodes est dans le coût exorbitant d’une itération, qui requiert la résolution d’un système linéaire avec une matrice pleine. Pour cette partie nous allons travailler sur les différentes type d'approximations de la matrice hessienne (Fisher, Kronecker-Factorized Approximation of Curvature…) récemment découvertes et permettant d'exploiter pleinement les ressources parallèles.
L’application principale à IFPEN d’une telle avancée réside dans la segmentation des données 3-D en niveau de gris provenant de la tomographie électronique des catalyseurs d’alumine ou la classification des données mobilité. Pour ces applications, la phase d’apprentissage peut durer plusieurs jours voire semaines. Mais les résultats obtenus auront bien entendu une portée très générale et feront l’objet de publications dans des revues scientifiques ainsi que de communications dans des congrès internationaux.
Ce projet offre au candidat une occasion unique d'apprendre les techniques d’optimisations et de calcul parallèle, et la possibilité de rejoindre une communauté croissante de scientifiques travaillant en intelligence artificielle.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment