11.7.5.3.2 : Perspectives
Le prototype est validé et permet d'enregistrer une accélération certaine. Toutefois notre démarche a ouvert encore plus de pistes à explorer pour récolter tous les gains en production. Citons notamment~:
  • exploitation sur GPU de la version simple précision
  • exploitation sur GPU des produits de matrices de la bibliothèque cuBLAS
  • mesure du speedup maintenant que la mémoire est mieux utilisée (au moins six fois mieux)
  • gain de mémoire, et par là de vitesse, par désallocation au fil du calcul
  • utilisation des fonctionnalités multi-GPU depuis OpenACC pour capitaliser sur les trois cartes de ipngrid01 ou les deux cartes de llracp01
  • passage sur GPU de la partie structure nucléaire (économisant le plus gros des transferts mémoire) en utilisant de surcroît une éventuelle accélération de la diagonalisation de matrices sur GPU.
  • production sur la plate-forme GPUs du CC-IN2P3 (combinaison de GPU sur plusieurs nœuds)
  • test sous verrou pour identifier d'éventuelles perte de précision, maintenant que la taille bss a été drastiquement réduite par une meilleure utilisation des common.
  • test sous valgrind de la version OpenMP maintenant que la taille bss a été drastiquement réduite par une meilleure utilisation des common.