La réduction drastique des temps de traitement repose sur l'exploitation de l'infrastructure matérielle via le paramètre gpu. En activant cette configuration, vous allouez directement les processeurs graphiques de votre clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. à l'effort de calcul. L'utilisation conjointe de la sous-option useTensorRT active un framework d'inférence haute performance, maximisant le débit. De plus, la réduction de la précision des calculs flottants via l'option precision paramétrée sur FP16 permet d'engager pleinement les cœurs Tensor dédiés, diminuant drastiquement l'empreinte mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya. tout en accélérant les calculs matriciels complexes sans perte significative de fiabilité prédictive.
Comment pulvériser les temps de latence de vos inférences grâce à l'accélération matérielle avancée ?
Exemples pour l'action dnnScore
Scoring basique avec un DNN
Cet exemple montre comment scorer une table avec un modèle existant et conserver l'identifiant 'ID' dans les résultats pour pouvoir raccorder les prédictions aux observations sources.
Scoring avec accélération GPU et extraction de couches
Pour les modèles plus lourds (comme la vision par ordinateur ou le texte), nous utilisons ici un GPU avec une précision FP16 pour doper les performances. Nous en profitons pour extraire la sortie (activations) d'une couche spécifique nommée 'Couche_Cachee_1'.