Hello there, General Kenobi

meme, General Grivious, hello there General Kenobi

Comme tu le sais surement, je suis un grand fan de memes :)

Aujourd’hui je te propose de faire du déterrage de vieux memes et de tenter de les restaurer avec du machine learning. Pour leur donner l’occasion de briller de mille feux une nouvelle fois et restaurer un peu de leur gloire passée !

On vas s’appuyer sur un outils sous licence S-Lab License 1.0

Je cite Shangchen Zhou, Kelvin C.K. Chan, Chongyi Li, Chen Change Loy bravo à eux :)

https://github.com/sczhou/CodeFormer

Je pourrai utiliser ma tour de jeux avec mon GPU perso, mais j’ai envie de jouer avec les GPU de Google !

J’ai commencé à faire et à écrire beaucoup de bêtises dans cet article basé sur des hypothèses fausses, mais par pédagogie et par honnêteté intellectuelle, j’ai décidé de laisser mon moi du futur corriger mes conneries du passé :) Ce qui va donner un article encore plus décousu et désordonné que d’habitude, la rédaction assume cet effet de style …

Au fur et à mesure du temps j’ai compris que codeformer ne fait pas vraiment de l’upscaling et que ça ne répond pas à mon besoin prétexte de cet article. Je peux dire cependant que mon idée d’architecture est valide, je finirai en fin d’article avec la conclusion qui s’impose.

Considère qu’à chaque fois que tu vois cette couleur, c’est le visiteur du futur qui revient !

N’écris surtout pas cet article, sinon, voilà ce qui va se passer !

Archi Parmentier

A priori on a deux choix pour utiliser des GPU de Google, du kube avec un GPU accroché à un node, ou alors un compute des familles avec un GPU dessus.

J’ai envie de m’abstraire de la complexité et du coût de kube, donc on va faire du compute pour cette fois-ci.

On vas profiter un peu aussi des images google préconstruite avec les drivers préinstallés et tous les prérequis chiants que je n’ai pas envie de gérer.

On va se donner une contrainte un peu sympa, pas de compute allumé pour rien.

On va faire une infra asynchrone avec du cloudrun en frontal pour déclencher notre traitement d’image sur le compute à la demande.

Mon idée c’est d’allumer notre compute à la demande et lui demander bien sagement de s’éteindre une fois les traitements terminés après quelques minutes d’inactivité.

Je te fais un schéma comme si j’étais architecte pour que tu comprennes mieux mon idée !

Je me rends compte que rien ne va dans ce schéma, je vous mets la nouvelle version avec un peu plus d’explication !

Je vous laisse ce premier schéma quand même parce qu’il reflète le niveau de flou de mon idée principal. C’est vraiment l’idée embryonnaire la plus brute que j’avais, et c’est intéressant de voir ensuite vers quoi je suis partie.

Je n’avais même pas pris la peine de rédiger des explications, mais mon idée c’était de déclencher la création du compute sur évènement pubsub. Je me suis vite rendu compte que pubsub rajoutaient une complexité inutile et que c’était plus simple que le compute liste lui même les fichiers à consommer.

Donc la nouvelle version du diagramme

On enlève pubsub qui est inutile.

l’utilisateur upload des images via cloudrun/fastapi

 si cette route reçoit des images dans le bon format:
 elle upload les images dans le bucket d'input
 elle déclenche un terraform apply dans le cloudrun

 Le compute ce lance et démarre directement le daemon de traitement des images
 Les images sont téléchargées
 le traitement des images est effectué
 le résultat est uploadé dans le bucket de résultat
 le daemon appel la route tf_destroy sur le cloudrun

 le compute est détruit

oss 117, d’accord faisons comme ça

Premières désillusions

Il faudra augmenter les quotas en faisant une demande à GCP (traité dans les 10 minutes automatiquement en général)

Truc “rigolo” on ne peut pas éteindre les compute avec GPU attaché, qu’à cela ne tienne, on va faire du delete recreate, c’est encore plus radical que d’éteindre et de rallumer le compute et les trucs radicaux, j’aime ça :)

Je suis partie sur ce postulat complètement faux depuis le début, comme j’ai commencé à provisionner avec terraform et des machines peremtible. On peut très bien éteindre et rallumer les machines avec GPU à condition qu’elle ne soit pas peremptible.

Philippe Poutou, tout est faux là

Ça m’oblige à faire une image immutable et démarrable le plus rapidement possible, on va faire du packer et blober toute notre logique dans une image.

On va prendre un nvidia T4, c’est le moins cher des GPUs dispo sur GCP et je pense que c’est largement suffisant pour le besoin, 3000 boule l’unité quand même à l’heure ou j’écris (le prix de la carte, pas de la location de la machine) !

pouloulou j’ai choisi un vm avec cuda et tensorflow préinstallé et au premier boot j’ai droit a un truc comme ça

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22


This VM requires Nvidia drivers to function correctly.   Installation takes ~1 minute.
Would you like to install the Nvidia driver? [y/n] y
Installing Nvidia driver.
wait apt locks released
install linux headers: linux-headers-4.19.0-21-cloud-amd64
E: Could not get lock /var/lib/dpkg/lock-frontend - open (11: Resource temporarily unavailable)
E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), is another process using it?
DRIVER_VERSION: 510.47.03
Downloading driver from GCS location and install: 
gs://nvidia-drivers-us-public/tesla/510.47.03/NVIDIA-Linux-x86_64-510.47.03.run

Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 510.47.03...[...]..

WARNING: The nvidia-drm module will not be installed.
 As a result, DRM-KMS will not function with this installation of the NVIDIA driver.


WARNING: nvidia-installer was forced to guess the X library path 
'/usr/lib64' and X module path '/usr/lib64/xorg/modules';
these paths were not queryable from the system.  If X fails to find the NVIDIA X driver module, please install the
         `pkg-config` utility and the X.Org SDK/development package for your distribution and reinstall the driver.

qu’à cela ne tienne, on vas bourrer toute la merde dans un startup script et se taper toute l’installe à chaque fois :)

La méthode du starter script me faisait des créations de compute plus longue que le traitement des images. Ce n’était pas l’idée du siècle, mais ça m’a permis de valider mon mécanisme et d’ensuite revenir sur packer.

On va faire absolument tout ce qu’il ne faut pas faire en scénario compute normal :

un startup script de l’enfer
du apt install en pagailles
installer les drivers au démarrage
installer une liste pas possible de lib python
lancer mon daemon python de traitements d’image

On part sur un handicap massif, dès le début, mais je pense que ça vaut le coup, juste pour le challenge incroyablement stupide et compliqué que ça représente. I get it Google, tu veux rentabiliser tes cartes physiques dans ton datacenter, et me faire payer les grosses thunes pour amortir le matos. Mais je n’ai pas dit mon dernier mot, tu vas voir de quel gaz je ne me chauffe pas cet hiver :)

mais ne t’inquiètes pas mon ami Google, contrairement à mes POCs précédents, tu vas pouvoir prendre un peu d’argent :)

On peut en fait parfaitement faire du packer avec des GPUs, il faut juste un peu plus fouiller et bricoler en dehors de la doc officielle. Cette petite manoeuvre de tout fourrer dans le cloudinit est responsable de la majorité des dépenses de ce projet, donc avec le recul, j'aurai du passer plus de temps sur packer. Donc pardon à Google pour cette mauvaise fois incroyable de la part du jeune joueur français, nuages rouge ! Je te donne mes sous bien volontiers, on ne peut pas gagner à tout les coups !

oncle picsou compte les sous

On fait marcher le script manuellement

Je pars sur un startup script comme ça, on mettra ensuite un daemon python pour nourrir la machine.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28


apt update
apt install -y vim curl wget git build-essential 

curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py \
--output install_gpu_driver.py

python3 install_gpu_driver.py

useradd -s /bin/bash codeformer -m 

su - codeformer << EOF
git clone https://github.com/sczhou/CodeFormer.git
cd CodeFormer

wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh
bash ./Anaconda3-2022.10-Linux-x86_64.sh -b -p \$HOME/anaconda3
eval "\$(\$HOME/anaconda3/bin/conda shell.bash hook)"
echo 'eval "\$(\$HOME/anaconda3/bin/conda shell.bash hook)' /home/codeformer/.bashrc
conda create -n codeformer python=3.8 -y
conda activate codeformer

pip3 install -r requirements.txt
pip3 install basicsr
python basicsr/setup.py develop

python scripts/download_pretrained_models.py facelib
python scripts/download_pretrained_models.py CodeFormer
EOF

Rien de super intéressant, c’est la doc d’installation de CodeFormer que j’ai fait rentrer au chausse-pied dans un starter script.

Je créé un user codeformer.
On installe le driver nvidia, anaconda et les libs de codeformer.
Il manque basicsr pour télécharger les modèles, c’est pour ça que je l’ajoute à la suite du requirement install.
On télécharge les données du modèle.

Ce startup script marchouillait en mode semi-auto, mais j’ai du le retravailler ensuite pour le faire rentrer dans packer, et lancer les scripts complètement de manières automatisées. Principaux soucis, anaconda et le sourcing du shell de l’utilisateur codeformer. J’ai essayé plusieurs fois de me passer d’anaconda, mais c’était une purge totale :)

need help holding your python, keep it in a virtual environment

J’ai réussi un premier test

Maintenant qu’on a un premier test manuel qui fonctionne, c’est là que la fête commence :)

Je vous mets ici la première image que j’ai réussi à restaurer !

meme , woman yelling at cat, low def

meme , woman yelling at cat, upscale

J’affine ma première idée

Donc c’est super, on à un truc qui fonctionne et maintenant il va falloir mettre en place une logique de construction destruction du compute. On va utiliser terraform et fastapi pour faire ça et rentrer toute la logique dans le même cloudrun. Au moment de l’écriture de ces lignes, j’avais pour idée d’utiliser des cloudfunctions pour apply et destroy terraform. Comme j’ai besoin du binaire de terraform, ça ne rentre pas en fonction, également je trouve plus simple d’embed le code tf directement dans le container pour avoir un blob de l’ensemble. un seul endroit pour apply et destroy mon tf et moins de risque de corruption.

Tout mettre dans le startup script ne ma facilite vraiment pas la vie, j’aurai aimé pouvoir faire mes install dans un packer et embed mon code plus facilement… ça donne un truc un peu moche et pas simple à maintenir et à tester, mais je vais aller au bout de ma démarche et voir ensuite ce qui pourrait s’améliorer !

J’espère que vous avez du PQ sur vous parce que vous allez en chier

golden show, sketch foutre le camp

Ceci est une référence maintream de 2014

J’ai eu un mal de chien à faire fonctionner la logique cloudrun, fastapi terraform, parce que j’ai voulu tout faire marcher en même temps. Si j’avais été un peu plus ordonné, j’aurais dû être certain à 100% que mon compute GPU fonctionne en terraform avant de commencer à essayer d’apply destroy depuis cloudrun :) J’ai été pressé par le temps et par les coûts, j’aurai du me poser un peu plus et prendre du recul, mais c’est aussi ça les POCs !

je persévère finalement à faire une image packer avec des GPUs

Finalement, je me suis rendu à l’évidence que ma méthode n’était pas bonne. Le startup script au lancement de la machine met plus de temps à s’exécuter à chaque démarrage. Le cloudrun avec le code terraform embed rend le problème encore plus compliqué. Impossible de construire ou de détruire avec un terraform installable

Il m’a fallu du temps pour trouver comment fonctionne packer avec des GPUs, voici comment j’ai finalement résolu mon problème.

Google fournit des images déjà toutes prêtes avec tensorflow et cuda installé. pour les choisir, on peut regarder dans la doc Google:

https://cloud.google.com/deep-learning-vm/docs/images

ou lister les images dispo avec gcloud

1

gcloud compute images list --project deeplearning-platform-release

y’en à beaucoup moi j’ai choisi celle-ci

tf-latest-gpu-v20221107-debian-10 debian 10, dernier GPU et tensorflow/cuda

Donc maintenant voici le json que je donne à packer pour faire mon image.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27


{
  "builders": [
    {
      "type": "googlecompute",
      "project_id": "face-reconstruction-api",
      "ssh_username": "packer",
      "zone": "europe-west4-a",
      "source_image": "tf-latest-gpu-v20221107-debian-10",
      "source_image_project_id": "deeplearning-platform-release",
      "on_host_maintenance": "TERMINATE",
      "accelerator_type": "projects/face-reconstruction-api/zones/europe-west4-a/acceleratorTypes/nvidia-tesla-t4",
      "accelerator_count": "1",
      "machine_type": "n1-standard-4",
      "disk_size": "50",
      "image_name": "codeformer-{{timestamp}}",
      "image_storage_locations": "europe-west4" 
     }
  ],
  "provisioners": [
    {
      "type": "shell",
      "scripts": ["scripts/update_and_driver_install.sh",
	"scripts/install_codeformer_in_user_home.sh"
      ]
    }
  ]
}

Les choses auxquelles il faut faire attention:

zone et image_storage_locations: Il faut que l’image finale et que l’image de base soit stockée dans une zone et une région qui héberge des GPUs, dans mon cas j’ai pris europe-west4.

https://github.com/hashicorp/packer/pull/5137/commits/2e1f85a3f2e3f6951de516e0aa421084b4c2e216 Ce bout de machin est le seul indice que j’ai trouvé pour l’explication du setting qui suit

on_host_maintenance: “TERMINATE” les computes avec GPUs ne supporte pas les lives migrations

le lien de l’API technique des GPU, pour obtenir cette information, gcloud vous aidera:

attention à la zone, attention au nom de projet

"accelerator_type": "projects/face-reconstruction-api/zones/europe-west4-a/acceleratorTypes/nvidia-tesla-t4",
"accelerator_count": "1",

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


gcloud compute accelerator-types describe --zone europe-west4-a nvidia-tesla-t4
creationTimestamp: '1969-12-31T16:00:00.000-08:00'
description: NVIDIA T4
id: '10019'
kind: compute#acceleratorType
maximumCardsPerInstance: 4
name: nvidia-tesla-t4
selfLink: https://www.googleapis.com/compute/v1/projects/face-reconstruction-api/
zones/europe-west4-a/acceleratorTypes/nvidia-tesla-t4
zone: https://www.googleapis.com/compute/v1/projects/face-reconstruction-api/zones/europe-west4-a

dernier petit “désagrément” à savoir quand on utilise ces images avec packer:

GCP qui active auto-update dans les images de deeplearning, c’est sympa, mais ça m’oblige à mettre un gros sleep sale en début de packer.

Et oui, un gros sleep, parce que sinon aucun moyen d’avoir le release du lock apt, pas de moyen simple à ma connaissance en pur bash de faire une boucle d’attente de release du lock.

OK donc là c’est un peu deep si on connais pas bien apt get, alors je te mets une petite explication.

Plus d’info sur le lock apt

Quand on lance des actions d’installation ou de mise à jour avec le gestionnaire de paquet apt, il met en place un fichier de lock. Le principe c’est de bloquer une deuxième action apt et éviter les corruptions d’installation de package.

Dans mon cas précis, ça m’arrange pas tellement d’avoir un apt lock au moment ou j’essaye d’installer mes dépendances avec packer. je n’ai pas d’outils simples dans la machine pour facilement vérifier si le lock apt est verrouillé ou pas. En gros au moment de mes installations, si le lock est occupé, je ne peux pas installer de binaires pour me permettre de tester si le lock est occupé. Ça fait planter mon packer, et du coût je fais une temporisation de 4 minutes pour attendre la fin des mises à jour automatique déclenchée au démarrage de la machine. packer lance les scripts plus rapidement que cloudinit, c’est pour cette raison que je n’avais pas ce souci en cloudinit.

Connard de tracteur, casse-toi on bosse

photo de groupe du groupe tryo

Ou lalalala lala Babylone, oh, Babylone

ce qui m’amène aux scripts suivants:

1
2
3
4
5
6
7


scripts/update_and_driver_install.sh

set -x
echo "wait 4 minutes for gcp image to finish to auto update"
sleep 240
sudo apt update && sudo apt upgrade
sudo apt install -y vim curl wget git build-essential software-properties-common

C’est bête, mais en fait il faut quand même installer le driver nvidia dans le contexte anaconda de codeformer. C’est pour cette raison que le driver est installé dans le second script, mais que initialement j’avais nommé le script driver install .

kaameloott vous laissez pas embobiner, il cherche à vous rembobiner.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33


install_codeformer_in_user_home.sh

sudo useradd -m codeformer

sudo su - codeformer << EOF
set -x
cd /home/codeformer
wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh
bash ./Anaconda3-2022.10-Linux-x86_64.sh -b -p "/home/codeformer/anaconda3"

git clone https://github.com/sczhou/CodeFormer.git
cd CodeFormer

eval "\$(/home/codeformer/anaconda3/bin/conda shell.bash hook)"
echo 'eval "\$(/home/codeformer/anaconda3/bin/conda shell.bash hook)"' >> /home/codeformer/.bashrc

source "/home/codeformer/anaconda3/etc/profile.d/conda.sh"
eval "\$(/home/codeformer/anaconda3/bin/conda shell.bash hook)"

conda create -n codeformer python=3.8 -y
conda activate codeformer

curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py \
--output install_gpu_driver.py

python3 install_gpu_driver.py

pip install -r requirements.txt
pip install basicsr
python basicsr/setup.py develop
python scripts/download_pretrained_models.py facelib
python scripts/download_pretrained_models.py CodeFormer
EOF

driver 2, la minicooper

Est-ce que tu te souviens de la minicooper dans driver 2 ? non ?

Donc l’astuce c’est de créer un user et de construire un env anaconda en tant que cet user avec toutes les dépendances. Anaconda est particulièrement casse pied dans ce contexte, puisque cloudinit est root sans vrai shell. il faut donc ruser pour utiliser anaconda à l’installation et réutiliser l’env dans un autre script par la suite.

Une fois notre image packer construite, on fait du terraform pour le provisionning et notre daemon python pour automatiser notre routine codeformer. Ça nous donne quelque chose comme ça.

cloudinit.sh

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


#!/bin/bash
set -x

echo "copy deamon python deamon codeformer script" 
echo -e "${codeformer_loader_daemon}"|base64 -d >> /home/codeformer/CodeFormer/codeformer_loader_daemon.py
/home/codeformer/CodeFormer/codeformer_loader_daemon.py

echo "copy run_codeformer.sh"
echo "#!/bin/bash" > /home/codeformer/CodeFormer/run_deamon.sh
echo "export CLOUDRUN_URL='${cloudrun_destroy_url}'" >> /home/codeformer/CodeFormer/run_deamon.sh
echo -e "${run_codeformer}"|base64 -d >> /home/codeformer/CodeFormer/run_deamon.sh

echo "copy codeformer_process_images.sh"
echo -e "${codeformer_process_images}"|base64 -d > /home/codeformer/CodeFormer/codeformer_process_images.sh
chmod +x /home/codeformer/CodeFormer/codeformer_process_images.sh

chmod +x /home/codeformer/CodeFormer/run_deamon.sh
/home/codeformer/CodeFormer/run_deamon.sh

Anaconda nous oblige à le sourcer et on réactive l’env de codeformer + on installe les dépendances du daemon python qui va gérer notre routine.

1
2
3
4
5


cd /home/codeformer/CodeFormer/
source /home/codeformer/anaconda3/etc/profile.d/conda.sh
conda activate codeformer
pip3 install google-cloud-storage==2.5.0 requests
python3 /home/codeformer/CodeFormer/codeformer_loader_daemon.py

le code python du daemon

winnie l’ourson, convoque satan à travers sont mirroir

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115


#!/usr/bin/env python3
# coding:utf8

import sys
import os
import signal
import time
import subprocess
import glob
import logging
import requests
from google.cloud import storage

import urllib
import requests
import google.auth.transport.requests
import google.oauth2.id_token

logging.basicConfig(stream=sys.stdout, level=logging.INFO)

GCS_DATA_BUCKET = "facereconstruction-raw-images"
GCS_RESULT_BUCKET = "facereconstruction-result-images"
storage_client = storage.Client()
raw_image_input_path = "//home/codeformer/CodeFormer/inputs/whole_imgs/"
raw_image_result_path = "//home/codeformer/CodeFormer/results/whole_imgs_0.7/final_results/"
CLOUDRUN_URL = os.getenv("CLOUDRUN_URL")


class GracefulKiller:
    kill_now = False

    def __init__(self):
        signal.signal(signal.SIGINT, self.exit_gracefully)
        signal.signal(signal.SIGTERM, self.exit_gracefully)

    def exit_gracefully(self, *args):
        self.kill_now = True


def list_images_from_gcs():
    logging.info("get images from bucket")
    remote_images = storage_client.list_blobs(GCS_DATA_BUCKET)
    images_name = []
    for image in remote_images:
        images_name.append(image.name)
    return images_name


def clean_input_directory():
    files = glob.glob(raw_image_input_path + "*")
    for f in files:
        logging.info(f"remove file {f}")
        os.remove(f)


def copy_remote_images_on_fs(images):
    for image_name in images:
        logging.info(f"copy file {image_name} to code former input folder.")
        bucket = storage_client.bucket(GCS_DATA_BUCKET)
        blob = bucket.blob(image_name)
        blob.download_to_filename(raw_image_input_path + image_name)


def run_codeformer_command():
    logging.info("run codeformer command")
    os.system("./codeformer_process_images.sh")


def upload_result_to_remote():
    bucket_result = storage_client.bucket(GCS_RESULT_BUCKET)
    logging.info("upload result on result bucket")
    files = glob.glob(raw_image_result_path + "*")
    for file_result in files:
        logging.info(f"uploading file on remote {file_result}")
        blob = bucket_result.blob(os.path.basename(file_result))
        blob.upload_from_filename(file_result)


def delete_remote_images(images):
    logging.info("delete images raw bucket")
    bucket = storage_client.bucket(GCS_DATA_BUCKET)
    for image_name in images:
        blob = bucket.blob(image_name)
        blob.delete()


def get_auth_token_and_call_tf_destroy():
    tf_destroy_url=CLOUDRUN_URL + "tf_destroy"
    logging.info(f"calling destroy route {tf_destroy_url}")
    auth_req = google.auth.transport.requests.Request()
    id_token = google.oauth2.id_token.fetch_id_token(auth_req, CLOUDRUN_URL)
    
    headers = {"Authorization": f"Bearer {id_token}"}
    response = requests.get(tf_destroy_url, headers=headers)


if __name__ == "__main__":

    logging.info("deamon loaded !")
    killer = GracefulKiller()
    while not killer.kill_now:
        time.sleep(1)
        clean_input_directory()
        gcs_images = list_images_from_gcs()
        if not gcs_images:
            logging.info("no more images to process, exiting infinite loop.")
            break
        copy_remote_images_on_fs(gcs_images)
        run_codeformer_command()
        upload_result_to_remote()
        delete_remote_images(gcs_images)

    get_auth_token_and_call_tf_destroy()

    logging.info("End of the program. I was killed gracefully :)")

alors ça fait quoi ce machin ?

plat de spagheti en forme de meme leonardo dicaprio

GracefullKiller, l’idée c’est que si notre process prend un kill, il s’éteint proprement sans faire de vagues.

tant qu'on ne prend pas un kill système
  On nettoie un première fois le répertoire d'input de codeformer
  On liste les fichiers dans le bucket d'input
  si y'a des fichiers
    on les downloads et on fait le traitement
  sinon
    on sort de la boucle

  on lance le traitement codeformer
  on copie le résultat du traitement
  on supprime les images dans le bucket d'input

on appel terraform destroy sur le cloudrun avec un token google sécurisé (le compute à le droit run invoker)

coté terraform ça nous donne un truc comme ça. On note le Base64 encode et décode, ça me permet de m’affranchir des problèmes d’escape string et de formatage de mes scripts. ça me permet un découpage en plusieurs fichiers logiques sans altérer les scripts.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73


locals {

  cloudrun_roles = [ 
"roles/storage.admin", # read write bucket
"roles/run.invoker", # call cloudrun tf destroy
]
}

resource "google_service_account" "compute_t4_sa" {
  account_id   = "t4-compute"
  display_name = "Service Account T4 compute"
}

resource "google_project_iam_member" "compute_admin" {
  project = var.project
  count   = length(local.cloudrun_roles)
  role    = local.cloudrun_roles[count.index]
  member  = "serviceAccount:${google_service_account.compute_t4_sa.email}"
}

data "template_file" "install_script" {
  template = file("${path.module}/cloud-init.sh")
  vars = {
    codeformer_loader_daemon    = base64encode(file("${path.module}/codeformer_loader_daemon.py"))
    codeformer_process_images   = base64encode(file("${path.module}/codeformer_process_images.sh"))
    run_codeformer              = base64encode(file("${path.module}/run_codeformer.sh"))
    cloudrun_destroy_url        = "${data.google_cloud_run_service.fastapi.status.0.url}/"
  }
}

resource "google_compute_instance" "default" {
  name         = "t4-compute"
  machine_type = "n1-standard-4"
  zone         = "europe-west4-a"

  boot_disk {
    initialize_params {
      image = "codeformer-1669048636"
    }
  }

  // Local SSD disk
  scratch_disk {
    interface = "SCSI"
  }

  network_interface {
    network = "default"

    access_config {
      // Ephemeral public IP
    }
  }

  scheduling {
    automatic_restart           = "false"
    preemptible                 = "true"
    on_host_maintenance         = "TERMINATE"
    instance_termination_action = "STOP"
    provisioning_model          = "SPOT"
  }

  guest_accelerator {
    type  = "nvidia-tesla-t4"
    count = "1"
  }
  metadata_startup_script = data.template_file.install_script.rendered

  service_account {
    email  = google_service_account.compute_t4_sa.email
    scopes = ["cloud-platform"]
  }
}

également, on note les permissions storage admin et run invoker, pour nous permettre de réaliser nos actions sur les buckets et faire les appels authentifiés vers cloudrun. Notre image générée par packer réduit considérablement le temps de run de la machine.

car pixar, i’am speed

notre code API côté cloudrun

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82


import time
import os
import sys
import json
import logging
import urllib
import requests

import google.auth.transport.requests
import google.oauth2.id_token

from fastapi import FastAPI, File, UploadFile, Request
from fastapi.responses import HTMLResponse
from google.cloud import storage

import google.cloud.logging

client = google.cloud.logging.Client()
client.setup_logging()

GCS_DATA_BUCKET = os.getenv("GCS_DATA_BUCKET")
if not GCS_DATA_BUCKET:
    print("env var GCS_DATA_BUCKET is missing.")
    sys.exit(-1)

CLOUDRUN_PUBLIC_URL = os.getenv("CLOUDRUN_PUBLIC_URL")
if not CLOUDRUN_PUBLIC_URL:
    print("env var CLOUDRUN_PUBLIC_URL is missing.")
    sys.exit(-1)

client = storage.Client()
bucket = client.get_bucket(GCS_DATA_BUCKET)

app = FastAPI()

current_path = os.path.dirname(os.path.abspath(__name__))


@app.post("/uploadfiles/")
async def create_upload_files(
    request: Request,
    files: list[UploadFile] = File(description="Multiple files as UploadFile"),
):
    client_host = request.client.host

    exclude_file = []
    trigger_compute_creation = False

    for file in files:
        if file.filename.lower().endswith((".png", ".jpg", ".tiff", ".bmp", ".gif")):
            blob = bucket.blob(file.filename)
            with blob.open("wb") as f:
                f.write(file.file.read())
            trigger_compute_creation = True
        else:
            logging.info(f"skip file {file.filename} since extension is not supported")
            exclude_file.append(file.filename)

        if trigger_compute_creation:
            tf_apply_route = f"{CLOUDRUN_PUBLIC_URL}/tf_apply"
            logging.info(f"provisionning compute calling url {tf_apply_route}")
            os.chdir(current_path + "/001_gpu_compute/")
            logging.info("tf init and apply")
            os.system("terraform init")
            os.system("terraform apply --auto-approve")
            os.chdir(current_path)
            return "provision t4 compute launch !"
        else:
            return "you don't provide at least 1 valid image, skip compute creation ..."


@app.get("/")
async def main():
    return "c'est ok josé"

@app.get("/tf_destroy")
async def tf_destroy():
    os.chdir(current_path + "/001_gpu_compute/")
    os.system("terraform init")
    os.system("terraform destroy --auto-approve")
    os.chdir(current_path)
    return "c'est ok josé"

Rien de bien compliqué finalement là-dedans.

ça mériterait un coup de clean et des tests,

mais comme on est en mode POC rapide, meh ¯\_(ツ)_/¯

Vous allez me dire, pas d’authentification, vérification pauvre, c’est du propre !

émission TV, c’est du propre

Et bien en fait je laisse cloudrun en mode authentification obligatoire et j’appelle ma route avec un cookie headers . Donc c’est dégeux, mais je suis protégé par un token fort de Google. J’ai conscience qu’en entreprise c’est pas bien jojo, mais la y’a que moi sur la subscription. C’est dommage de me taper plein de code pour une authentification alors que je suis tout seul :)

Pour accéder au swagger fastapi, il me suffit de setter un Autorisation header avec le token que j’obtiens depuis gcloud. J’ai une extension firefox qui me permet de faire ça tranquille. Ne pas oublier de l’enlever ensuite, sinon l’UI gcp sera toute chamboulée :)

Conclusion

On en arrive au moment douloureux de faire les comptes. Cette petite blague m’a coûté quelques heures et 50 balles de GCP :)

Je ne regrette rien, j’ai pu valider :

que c’était possible de provisionner du compute avec Cloudrun
que les computes avec GPU sont tout aussi packerisable que les computes classique
que faire un poc en mode arraché à des limites et que parfois il faut prendre du recul
que même avec une idée et un schéma flou, on peut réaliser de belle chose

C’est intéressant d’un point de vue économique de pouvoir éteindre les machines quand on ne les utilise plus. Un équivalent en kube ça serait d’allumer et d’éteindre les nœuds à la demande. C’est quand même bien plus compliqué que de faire des containers.

Je savais que j’aurai du faire du kube, mais voilàààà, mais c’était sur en fait !