L'Alliance de l'Analytique et de la Fédération de Données : L'Interaction entre SAS 9 et Starburst

Cet article en deux mots :

Pourquoi choisir entre la puissance statistique historique et l'agilité du Cloud ? Dans ce "buddy movie" de la donnée, SAS 9 (le vétéran de l'analyse) fait équipe avec Starburst (l'expert de la fédération SQL).

Imaginez l'affiche avec des explosions en fond et cette fameuse accroche : "L'un est un vétéran qui aime les choses carrées. L'autre est une tête brûlée qui se moque des frontières. Ils n'ont rien en commun, mais pour résoudre cette enquête, ils vont devoir faire équipe."

Dans le rôle de Roger Murtaugh (L'Arme Fatale) : SAS 9. C'est le flic légendaire et respecté du commissariat de la Data. Il maîtrise les enquêtes les plus complexes, de la modélisationProcessus de création de structures mathématiques ou statistiques sur SAS Viya pour prédire des comportements, classifier des données ou identifier des tendances à partir de jeux de données CAS. statistique au machine learningBranche de l'IA utilisant des algorithmes pour apprendre des modèles à partir de données. Il permet d'automatiser des prédictions ou des décisions sans programmation explicite de chaque règle.. Mais voilà, le paysage criminel a changé. Aujourd'hui, les indices (les données) ne sont plus sagement rangés dans un seul entrepôt. Ils sont éparpillés dans les bas-fonds de la ville : un bout dans HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data., un autre planqué dans un coffre Oracle, et le reste volatilisé dans le Cloud public. Notre vétéran perd un temps fou à remplir de la paperasse et à conduire des camions d'un bout à l'autre de la ville pour tout ramener au labo (les fameux pipelines ETL). Son état d'esprit du moment ? "Je suis trop vieux pour ces conneries d'extraction de données."

C'est là qu'entre en scène le petit nouveau, dans le rôle de Martin Riggs : StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier.. Agile, rapide, massivement parallèle. Lui, il se fiche des juridictions (les silos de donnéesSegments de données stockés dans des infrastructures hétérogènes (bases de données distinctes, clouds différents, serveurs on-premise) qui ne communiquent pas entre eux, forçant souvent des processus d'extraction (ETL) complexes pour les réunir.). Il ne s'embête pas à déplacer les suspects : il s'infiltre n'importe où, interroge les données directement sur leur terrain avec une simple phrase en SQL, et ramène l'information exacte en un temps record.

Sur le papier, ils n'étaient pas faits pour s'entendre. Mais sur le terrain, c'est le duo ultime. StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. s'occupe de défoncer les portes des silos et de rapatrier les indices à la volée, pendant que SAS 9 reste concentré sur ce qu'il fait de mieux : résoudre l'affaire avec une précision redoutable.

L'interaction entre SAS 9 et StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier., c'est l'Arme Fatale de l'analytique moderne. Voici comment ce duo de choc fonctionne sous le capot.

Comment fonctionne l'interaction technique ?

L'interaction entre SAS 9 et StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. repose sur la capacité de SAS à déléguer l'accès aux données via des connecteurs standardisés. StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. agit ici comme une couche d'abstraction ou un "hub" de données pour SAS.

Voici les éléments clés de cette architecture :

Les avantages de cette intégration

Associer l'analytique de SAS 9 à la fédération de StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. transforme la manière dont les Data ScientistsExperts extrayant des connaissances via des méthodes statistiques, algorithmes et IA. Ils transforment les données brutes en insights stratégiques pour résoudre des problèmes métier complexes. et les analystes travaillent :

A. Réduction drastique de l'ETL (Extract, Transform, Load)

Historiquement, pour analyser des données externes dans SAS 9, il fallait concevoir des pipelines ETL lourds pour copier physiquement les données dans le format propriétaire SAS (.sas7bdat). StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. élimine ce besoin. Les données restent là où elles sont (Amazon S3, HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data., PostgreSQL, Snowflake, etc.), et SAS les interroge à la volée.

B. Accès instantané au Data Mesh

StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. connecte SAS 9 à un écosystème moderne de données. Si votre entreprise adopte une approche "Data Mesh" ou "Data Lakehouse", SAS 9 n'est pas laissé pour compte. StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. agit comme un traducteur universel, permettant à un programme SAS d'effectuer une jointure entre une table client sur Oracle et des logsFichiers chronologiques enregistrant les événements système, erreurs et activités d'exécution dans SAS Viya, essentiels pour le monitoring, le débogage et l'audit des services et des jobs. de navigation stockés sur un stockage objet (S3) en une seule requête.

C. Performance et optimisation des coûts

SAS 9 peut parfois saturer ses propres serveurs de calcul si les volumes de données en entrée sont trop massifs. En déléguant le traitement des grosses jointures et agrégations à StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. (qui est conçu pour la haute performance distribuée en mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya.
), on libère les ressources de calcul de SAS pour ce qu'il fait de mieux : les statistiques complexes et le scoringProcessus d'application d'un modèle prédictif à de nouvelles données pour calculer une probabilité ou un score, permettant ainsi d'automatiser la prise de décision en temps réel sur SAS Viya. de modèles.

Cas d'usage typique

Contexte : Une banque utilise SAS 9 pour calculer le score de risque de ses clients. Les données transactionnellesDonnées enregistrant chaque événement métier au moment où il se produit (vente, stock, clic). Elles incluent horodatage, acteurs, quantités et montants pour alimenter les analyses de séries chronologiques. historiques sont stockées dans un clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. (HDFS), tandis que les données CRM en temps réel sont dans une base de données opérationnelle PostgreSQL.

Sans StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. : L'équipe Data de la banque doit créer des processus nocturnes complexes pour extraire les données d'HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. et de PostgreSQL, les charger sur le serveur SAS, puis effectuer les jointures dans SAS avant de pouvoir lancer les modèles de scoringProcessus d'application d'un modèle prédictif à de nouvelles données pour calculer une probabilité ou un score, permettant ainsi d'automatiser la prise de décision en temps réel sur SAS Viya..

Avec StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. : L'analyste SAS écrit simplement :

1
2
3
4
5
6
7
8
9
LIBNAME sb_data odbc noprompt="Driver={Starburst ODBC Driver};Host=starburst-server;Port=443;Catalog=system;";

PROC SQL;
CREATE TABLE work.scoring_data AS
SELECT a.client_id, a.historique_credit, b.statut_crm
FROM sb_data.hadoop.transactions a
INNER JOIN sb_data.postgresql.crm b
ON a.client_id = b.client_id;
QUIT;

StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. gère la complexité de la jointure entre les deux systèmes hétérogènes. L'analyste SAS obtient son dataset de travail instantanément et peut se concentrer sur son algorithme.

En résumé

L'interaction entre SAS 9 et StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. permet de moderniser l'infrastructure analytique d'une entreprise sans avoir à réécrire les milliers de lignes de code SAS existantes. Elle offre le meilleur des deux mondes : la profondeur analytique de SAS et l'agilité moderne de la fédération de donnéesLa fédération de données est un processus logiciel qui crée une vue virtuelle et unifiée de données provenant de sources multiples et hétérogènes, sans nécessiter de déplacer ou de copier physiquement ces données. propre à StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier..

Nicolas Housset

Passionné d'informatique, je suis Consultant et expert technique SAS VIYA, également co-fondateur de la société Flexcelite. Spécialisé dans les technologies SAS (Viya, 9.4) et les infrastructures associées (Linux, Hadoop, Azure), ce blog est mon espace pour partager mes mémos techniques et retours d'expérience.