Comment optimiser une fonction sous contraintes? Application au problème des moindres carrés linéaires avec données réelles. Application du théorème de projection sur un ensemble convexe fermé. Proposer un modèle pour des données réelles.
Implémenter une projection. Combiner deux algorithmes (projection et descente de gradient). Charger des données réelles dans Python. Visualiser des données réelles. Utiliser la librairie scikit-learn.
Dans ce TP, nous allons utiliser la méthode de descente de gradient pour trouver un minimiseur d’une fonction f:\mathbb{R}^d\rightarrow\mathbb{R} pour d\geq 2 en posant des contraintes sur f ou sur l’ensemble \mathcal{C} des solutions du problème.
Algorithme de la descente de gradient projeté
Dans cette partie, on suppose que l’on a une fonction f, et on va introduire la descente de gradient projeté (🇬🇧 projected gradient descent) avec l’ensemble de contraintes convexe fermé \mathcal{C}. On note \Pi_{\mathcal{C}} la projection convexe, i.e. LA1 fonction convexe qui envoie un élément dans l’ensemble convexe fermé \mathcal{C}.
Quel est le minimum global de f_{test} ? (on pourra utiliser la descente de gradient du TP précédent). Utiliser la méthode minimize de la librairie scipy pour trouver le minimum de f_{test} sur \mathbb{R}^2_+. Pour cela, utiliser l’argument bounds et une méthode d’optimisation qui supporte cette contrainte, par exemple method="TNC". Voir la documentation si besoin.
Question 2: Descente de gradient projeté
Implémenter la méthode de descente du gradient projeté à pas fixe en prenant comme argument une fonction de projection \Pi_{\mathcal{C}}:\mathbb{R}^d\to \mathbb{R}^d quelconque.
Question 3: Application à la contrainte de positivité
Cette formulation induit la positivité des paramètres. Elle est notamment utilisée en physique quand il y a une interprétation directe comme la vitesse ou la masse d’un objet.
Question 4: Application aux projections sur les boules
Avec l’algorithme précédent, résoudre numériquement :
\begin{aligned}
\min_{x\in\mathbb{R}^2}\ & f_{\text{test}}(x) \\
& \text{ s.c. }
\|x\|_2^2\leq 1
\end{aligned}
Adapter l’exemple ci-dessus pour résoudre avec la contrainte \|x\|^2\leq 1/2. Vous pouvez dans un premier temps tester votre fonction de projection sur quelques points dont les projetés sont faciles à calculer à la main.
Pour aller plus loin
En s’aidant de l’exemple dans la documentation de la fonction minimize de scipy, résoudre le problème suivant :
\begin{aligned}
\min_{x\in\mathbb{R}^2}\ f_{\text{test}}(x)
\text{ s.c. }
\begin{cases}
x_1 - 3 x_2 \geq -2 \\
x_1 + x_2 \geq 0
\end{cases} \enspace.
\end{aligned}
Ce problème est avec des contraintes d’inégalités linéaires. Pour le résoudre à la main, il serait possible d’utiliser la méthode des multiplicateurs de Lagrange.
Problème des moindres carrés linéaires
Dans cette partie, le but est de trouver la fonction linéaire qui approche le mieux un nuage de points (au sens de la norme euclidienne). C’est-à-dire, pour un ensemble de n points de \mathbb{R^2}(x_i, y_i)_{i=1}^n nous cherchons à résoudre le problème convexe suivant:
Pour résoudre le problème des moindres carrés linéaires, utilisons la descente de gradient pour obtenir \hat w. Pour cela, on notera que l’on peut écrire f(w)=\frac{1}{2n}\|y-Xw\|_2^2 avec:
Il faut donc calculer (mathématiquement) le gradient \nabla f(w) puis appliquer la descente de gradient pour résoudre le problème.
Implémenter une fonction gradient qui prend en entrée y,X,w et renvoie \nabla f(w) (ne pas utiliser explicitement le fait que X ait seulement 2 colonnes pour pouvoir généraliser par la suite à plus de paramètres).
Question 2: Visualiser les données
En utilisant le jeu de données Iowa_Liquor_tp.csv et le code ci-dessous pour charger un fichier .csv, tracer le nuage de points (x_i, y_i)_{i=1}^{n}.
On observe qu’il y a une périodicité annuelle dans les données. Implémenter alors la même méthode pour en tenir compte. Pour cela, résoudre le problème suivant:
Vérifiez que votre solution coïncide avec la solution proposée par la librairie scikit-learn avec le code suivant:
what = lm.coef_w0hat = lm.intercept_ # ordonnée à l'origineprint(what, w0hat)
[[9226.57063096]] [1464946.88739496]
Pour aller plus loin
La méthode pour résoudre le problème des moindres carrés proposée est celle de scikit-learn. Cette librairie est extrêmement utilisée en apprentissage statistique. Explorez la galerie de la documentation et découvrez plein de nouvelles méthodes et d’applications!