12.2.2 : Hardware



  • Inside the NVIDIA Hopper Architecture [S42663] (52min25s)
    • Nouveau SM et Tensor Cores
    • 4th gen tensor core
    • FMA for float32 et float64
    • DPX
    • Thread block cluster (nouvelle hierarchie pour les blocs, gride et mémoire) garantis le co-scheduling des threads
    • FP8
    • Data management $30\%$ faster than previous
    • Transformer engine (optimisation des transfers de données, peut être activé ou désactivé)
    • Peut ajuster automatiquement les ranges des calculs pour garder la précision
    • Performance du calcul paralelle (utilisation des caches, localité, et exécution asynchrone)
    • Maintenant un SM représente moins d'un centième de la taille du GPU
    • Communication bloc à bloc, les barrière sont dans la mémoire partagées et asynchrones (un thread peut faire autre chose en attendant, si il a déjà fini son calcul)
    • Tensor Memory Acceleration (TMA) : Il s'occupe de l'adressage des données, ce n'est plus le thread qui le fait
    • H100 NVlink : le switch peu faire le calcul de la réduction
    • Les GPU envoient leur données qu'une fois au lieu de N GPU
    • Confiential Computing : personne ne peut voir les données, même le sysadmin ou l'OS (sur CPU, GPU et multi-GPU) fait par le driver
    • Toujours le MIG (7 instances max) (Maintenant aussi décodage d'image et vidéo par instance, pas le cas sur les A100)