Commit 8b78c600 authored by Calcul Bot's avatar Calcul Bot

Adding new job offer job_f055fd43f757e896de90eb35570b0113

parent baa23468
Pipeline #5861 passed with stages
in 1 minute and 48 seconds
Title: Méthodes d'optimisation pour l'apprentissage
Date: 2019-12-31 06:09
Slug: job_f055fd43f757e896de90eb35570b0113
Category: job
Authors: Ibtihel BEN GHARBIA
Email: ibtihel.ben-gharbia@ifp.fr
Job_Type: Stage
Tags: stage
Template: job_offer
Job_Location: Rueil-Malmaison
Job_Duration: 5 mois
Job_Website:
Job_Employer: IFP Énergies Nouvelles
Expiration_Date: 2020-03-31
Attachment:
Contexte du projet:
En apprentissage automatique, la technologie actuellement prédominante pour effectuer la phase d’entraînement des réseaux de neurones est la méthode du gradient stochastique (SGD, Stochastic Gradient Descent). Cette méthode a été largement adoptée par la communauté du machine learning grâce à sa simplicité d’implémentation et sa relative efficacité au regard des problèmes d’apprentissage. En contrepartie, elle présente plusieurs défauts comme la mauvaise qualité de l’approximation stochastique du gradient et le manque d’informations de courbure via les dérivées secondes.
Objectifs du stage :
Dans le cadre de ce stage, nous nous intéressons aux méthodes de second ordre qui font intervenir les informations de « courbure » via la matrice hessienne ou une approximation par la matrice dite de Fisher. Ces informations sont censées améliorer l’ordre de convergence et réduire le bruit. La piste que nous souhaitons explorer est celle du gradient naturel, où au lieu de raisonner sur les paramètres on travaille avec des distributions de probabilité intrinsèques.
Cependant, la matrice de Fisher est pleine et donc onéreuses à stocker et à inverser. Les premières approximations de la matrice de cette matrice imposant une structure diagonale ou bloc-diagonale sont trop grossières et font perdre l’intérêt des informations. Plus récemment, plusieurs approximations de nature statistique ont été suggérées pour la matrice de Fisher. Nous sommes plus particulièrement intéressés par celle de Martens et Grosse, appelée K-FAC. Ces auteurs exploitent au mieux la structure d’un réseau DNN et aboutissent à une approximation diagonale par bloc, chaque bloc regroupant correspondant à une couche et représenté par un produit tensoriel (au sens de Kronecker) de deux matrices plus petites, peu chères à stocker et faciles à inverser. Après une prise en main des fondamentaux algorithmiques et informatiques, le stagiaire sera amené à étudier cette approche et la développer sur les réseaux DNN avec des jeux de données de référence issus de ImageNet. Il s’appuiera sur les logiciels existants comme TensorFlow qui proposent des briques dédiées à la mise en oeuvre parallèle des algorithmes étudiés. En effet, l’amélioration de la phase apprentissage des réseaux de neurones avec des gros volume de données font recours au calcul parallèle afin accélérer cette étape qui peut prendre jusqu’à plusieurs jours de calcul.
Profil recherché :
Etudiant Master 2 ou élève-ingénieur en 3ème année d'école, avec connaissances en informatique, optimisation et science des données
Période : mars/septembre
Rémunération : environ 1000 € brut
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment