Skip to content
GitLab
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in
  • website website
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 10
    • Issues 10
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 1
    • Merge requests 1
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Packages and registries
    • Packages and registries
    • Container Registry
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • groupe-calculgroupe-calcul
  • websitewebsite
  • Merge requests
  • !470

New job offer job_f055fd43f757e896de90eb35570b0113

  • Review changes

  • Download
  • Email patches
  • Plain diff
Merged Calcul Bot requested to merge job_f055fd43f757e896de90eb35570b0113 into master Dec 31, 2019
  • Overview 0
  • Commits 1
  • Pipelines 1
  • Changes 1

Title: Méthodes d'optimisation pour l'apprentissage
Date: 2019-12-31 06:09
Slug: job_f055fd43f757e896de90eb35570b0113
Category: job
Authors: Ibtihel BEN GHARBIA
Email: ibtihel.ben-gharbia@ifp.fr
Job_Type: Stage
Tags: stage
Template: job_offer
Job_Location: Rueil-Malmaison
Job_Duration: 5 mois
Job_Website:
Job_Employer: IFP Énergies Nouvelles
Expiration_Date: 2020-03-31
Attachment:

Contexte du projet:

En apprentissage automatique, la technologie actuellement prédominante pour effectuer la phase d’entraînement des réseaux de neurones est la méthode du gradient stochastique (SGD, Stochastic Gradient Descent). Cette méthode a été largement adoptée par la communauté du machine learning grâce à sa simplicité d’implémentation et sa relative efficacité au regard des problèmes d’apprentissage. En contrepartie, elle présente plusieurs défauts comme la mauvaise qualité de l’approximation stochastique du gradient et le manque d’informations de courbure via les dérivées secondes.

Objectifs du stage :

Dans le cadre de ce stage, nous nous intéressons aux méthodes de second ordre qui font intervenir les informations de « courbure » via la matrice hessienne ou une approximation par la matrice dite de Fisher. Ces informations sont censées améliorer l’ordre de convergence et réduire le bruit. La piste que nous souhaitons explorer est celle du gradient naturel, où au lieu de raisonner sur les paramètres on travaille avec des distributions de probabilité intrinsèques.
Cependant, la matrice de Fisher est pleine et donc onéreuses à stocker et à inverser. Les premières approximations de la matrice de cette matrice imposant une structure diagonale ou bloc-diagonale sont trop grossières et font perdre l’intérêt des informations. Plus récemment, plusieurs approximations de nature statistique ont été suggérées pour la matrice de Fisher. Nous sommes plus particulièrement intéressés par celle de Martens et Grosse, appelée K-FAC. Ces auteurs exploitent au mieux la structure d’un réseau DNN et aboutissent à une approximation diagonale par bloc, chaque bloc regroupant correspondant à une couche et représenté par un produit tensoriel (au sens de Kronecker) de deux matrices plus petites, peu chères à stocker et faciles à inverser. Après une prise en main des fondamentaux algorithmiques et informatiques, le stagiaire sera amené à étudier cette approche et la développer sur les réseaux DNN avec des jeux de données de référence issus de ImageNet. Il s’appuiera sur les logiciels existants comme TensorFlow qui proposent des briques dédiées à la mise en oeuvre parallèle des algorithmes étudiés. En effet, l’amélioration de la phase apprentissage des réseaux de neurones avec des gros volume de données font recours au calcul parallèle afin accélérer cette étape qui peut prendre jusqu’à plusieurs jours de calcul.

Profil recherché :

Etudiant Master 2 ou élève-ingénieur en 3ème année d'école, avec connaissances en informatique, optimisation et science des données

Période : mars/septembre

Rémunération : environ 1000 € brut

Assignee
Assign to
Reviewers
Request review from
Time tracking
Source branch: job_f055fd43f757e896de90eb35570b0113