Il governo dei data lake inizia dai metadati

Talend ha sviluppato una soluzione che gestisce i metadati nella catena del valore, assicura usabilità, governance multi cloud e predicibilità dei costi connessi alla crescita di dati e risorse

 

 La digital transformation inizia dai dati e dal loro utilizzo intelligente. Se però si passa dall’enunciazione teorica alle considerazioni pratiche la realtà è che  quasi la metà dei dati aziendali ha problemi di integrità, l’ottanta per cento del tempo degli analisti è speso nel preparare i dati e i metadati e oltre la metà dei dati aziendali non è accessibile.

Il porre mano a questi problemi che possono rallentare il processo di trasformazione aziendale, osserva Talend, trova però un forte ostacolo nel fatto che le esistenti architetture dati non sono in grado di tenere il passo con i tempi, le tipologie dei dati, il volume, la distribuzione  e le esigenze  di analisi in tempo reale.

Quello che serve è una soluzione che metta a fattor comune paradigmi quali il multi cloud, i big data, i data lake, gli analytics, e che lo faccia in modo aperto e facile da fruire.

Potrebbe sembrare la classica quadratura del cerchio ma è quello che ha realizzato Talend, posizionata da Gartner tra i leader nel Quadrante Magico Data Integration Tools, con la soluzione Talend Data Fabric.

La piattaforma, ottimizzata per la gestione di ambienti IT cloud e multi-cloud di classe enterprise, permette di gestire in modo trasparente e sicuro le informazioni aziendali distribuite sulle principali  piattaforme pubbliche Cloud, e permette di integrare, pulire e analizzare rapidamente i dati ovunque si trovino e in aderenza alle esigenze dei processi di business.

In pratica, la soluzione fornisce alle aziende impegnate nella digital transformation una struttura di governance esaustiva basata sui metadati per la creazione, il controllo, l’attribuzione, la definizione e la gestione delle informazioni aziendali in modo da poter estrarre e diffondere ulteriore valore dai dati disponibili.

L’assunto  della vision di Talend, per abilitare la digital transformation e colmare il digital divide che si è creato tra le esigenze del business e l’architettura IT convenzionale, è  che i metadati permettono di riassumere le informazioni di base relativamente ai dati associati, come posizione, formato, semantica, utilizzo e valore.

Accedere  a tali informazioni consente alle aziende di migliorare la condivisione dei dati, il loro riutilizzo, la governance, il controllo dei rischi e avere una migliore valutazione dell’impatto delle modifiche prima che i dati vengano condivisi all’interno dell’azienda.

«La corretta comprensione della struttura, dei limiti, della definizione e della descrizione dei dati consente di proteggersi dagli errori di interpretazione o da un uso improprio. Indipendentemente dalle sue dimensioni, un’azienda può dotarsi di una solida strategia per i metadati che è essenziale in un’epoca in cui l’informazione è fondamentale per il successo delle aziende sul lungo periodo», ha osservato.

Antongiulio Dona', Vice President Sales per l’Italia di Talend.

Antongiulio Dona’, Vice President Sales per l’Italia di Talend.

Multi-Cloud e Big Data a fattor comune

Uno degli obiettivi che Talend si è posta con lo sviluppo di Talend Data Fabric è consistito nel dare alle aziende la possibilità di  disporre di servizi cloud di diversi provider in modo da offrire un valore aggiunto alle business unit di un’azienda coinvolte in un processo  di adozione di piattaforme cloud in base alle specifiche esigenze.

Per evitare il diffondersi di shadow IT i CIO devono progettare le infrastrutture IT in modo agile e atte a fornire soluzioni ibride e multi-cloud. Talend Data Fabric permette alle aziende di sviluppare pipeline di dati su una qualsiasi delle principali piattaforme cloud con la consapevolezza che tutto sarà compatibile con il cloud di ultima generazione e con le innovazioni in ambito open source.

La piattaforma mette a disposizione delle aziende un’ampia library di componenti cloud nativi Talend, fruibili mediante strumenti visivi intuitivi per il drag-and-drop, che permettono di creare flussi di big data in grado di funzionare con qualsiasi cloud.

Ampio il supporto di provider, che comprende AWS, Cloudera Altus, Google Cloud Platform, Microsoft Azure e Snowflake. Le funzioni disponibili consentono ad esempio di:

  • Sviluppare pipeline multi–cloud: è realizzato tramite connettori con i diversi ambienti cloud e funzionalità che semplificano la costruzione e la distribuzione di pipeline di dati intelligenti.
  • Accelerare la migrazione al cloud: consente di migrare i dati on-premise su cloud e di crearvi data warehouse, alimentare analisi più ricche e velocizzare i tempi di consultazione.
  • Ottimizzazione e portabilità: permette di sfruttare le attività di sviluppo progettate per una piattaforma cloud e riutilizzarle con altre piattaforme cloud.
  • Data quality e apprendimento automatico: permette di bonificare e gestire i dati in modo automatico per far fronte alla crescita degli archivi. Il processo si basa su algoritmi di machine learning alimentati da Apache Spark per automatizzare e accelerare la corrispondenza e la bonifica dei dati, migliorare la scalabilità, le prestazioni e l’accuratezza.

Il supporto per SAP e metadati

Talend Data Fabric e tutte le piattaforme intermedie comprendono anche diversi supporti per i dati archiviati nei sistemi SAP.

Le funzionalità  sono di ausilio nel gestire in modo semplice e rapido i dati SAP già esistenti e fonti di big data esterne all’azienda, per poi far confluire il tutto in data lake o  data warehouse on premise o su cloud.

Ad esempio, con l’ultimo e recente annuncio del SAP Bulk Extraction, le piattaforme Talend consentono di estrarre grandi quantità di Big Data batch da SAP Business Suite e SAP S/4HANA e migrarli verso altri sistemi;  Business Content Extractor è uno strumento che fornisce viste semantiche delle fonti di dati SAP che ne facilitano l’accesso; SAP HANA Calculation Views consente di lavorare con snapshot compositi ed eseguire calcoli complessi che semplificano il processo di modellazione dei dati.