23 June

Data Analytics con Apache Spark - webinar

Apache Spark è un framework open-source per l’analisi di grandi quantità di dati su cluster e per il calcolo distribuito in memory rilasciato e mantenuto dall’Apache Software Foundation.

Apache Spark è in grado di affrontare molte delle questioni che riguardano la gestione dei Big Data perché offre processi di elaborazione parallela in memory che permettono di restituire i risultati in tempi molto più brevi di qualsiasi altra tipologia di approccio che necessita di continue letture e scritture sul disco.

Apache Spark trova sempre più spazio all'interno di aziende di piccole e grandi dimensioni in svariati settori: delle analisi predittive, all'internet delle cose, passando per i sistemi di recommendation ed analisi di logs per la definizione di sistemi predittivi e descrittivi. Big tech powerhouses companies come, Yahoo, eBay e Netflix utilizzano Spark su vasta scala, elaborando diversi petabyte di dati su cluster di oltre 8.000 nodi.

Il webinar del 26 maggio organizzato da Murate Idea Park e Commit ha lo scopo di mostrare come funziona Spark: i meccanismi, le logiche, l’utilizzo su cluster e lo sviluppo mediante APIs. Il webinar non si basa sul solo trasferimento nozionistico-teorico, ma vuole illustrare i concetti principali mediante esempi di codice e demo simulando un reale ambiente cluster, multi-node container based.

Webinar agenda:

I. Introduzione ad Apache Spark

Storia di Spark, funzionamento e differenze con altri tipi di approcci.

II. Funzionamento generale di Apache Spark

Breve cenno a RDD e DAG.

III. Spark nell’ecosistema Big Data

Come si colloca Spark nell’ecosistema Hadoop e nello scenario big data.

IV. Caratteristiche di Spark

In memory, fault tollerant, cost efficent, Lazy evalutation, riusabilità, supporto

multilinguaggio, realtime processing.

V. Componenti di Spark

Breve illustrazione dei componenti di Spark.

VI. Spark Generalità

Introduzione a RDD, Performance e utilizzo.

VII. Demo session

-Data Streming da social network e Natural Language Processing

 

Relatori:

Gaetano Fabiano, docente di Informatica, speaker e formatore per diverse realtà aziendali, writer di articoli tecnici e divulgativi e freelancer consultant di sviluppo e trasformazione digitale.

Data Analytics con Apache Spark - webinar

Apache Spark è un framework open-source per l’analisi di grandi quantità di dati su cluster e per il calcolo distribuito in memory rilasciato e mantenuto dall’Apache Software Foundation.

Apache Spark è in grado di affrontare molte delle questioni che riguardano la gestione dei Big Data perché offre processi di elaborazione parallela in memory che permettono di restituire i risultati in tempi molto più brevi di qualsiasi altra tipologia di approccio che necessita di continue letture e scritture sul disco.

Apache Spark trova sempre più spazio all'interno di aziende di piccole e grandi dimensioni in svariati settori: delle analisi predittive, all'internet delle cose, passando per i sistemi di recommendation ed analisi di logs per la definizione di sistemi predittivi e descrittivi. Big tech powerhouses companies come, Yahoo, eBay e Netflix utilizzano Spark su vasta scala, elaborando diversi petabyte di dati su cluster di oltre 8.000 nodi.

Il webinar del 26 maggio organizzato da Murate Idea Park e Commit ha lo scopo di mostrare come funziona Spark: i meccanismi, le logiche, l’utilizzo su cluster e lo sviluppo mediante APIs. Il webinar non si basa sul solo trasferimento nozionistico-teorico, ma vuole illustrare i concetti principali mediante esempi di codice e demo simulando un reale ambiente cluster, multi-node container based.

Webinar agenda:

I. Introduzione ad Apache Spark

Storia di Spark, funzionamento e differenze con altri tipi di approcci.

II. Funzionamento generale di Apache Spark

Breve cenno a RDD e DAG.

III. Spark nell’ecosistema Big Data

Come si colloca Spark nell’ecosistema Hadoop e nello scenario big data.

IV. Caratteristiche di Spark

In memory, fault tollerant, cost efficent, Lazy evalutation, riusabilità, supporto

multilinguaggio, realtime processing.

V. Componenti di Spark

Breve illustrazione dei componenti di Spark.

VI. Spark Generalità

Introduzione a RDD, Performance e utilizzo.

VII. Demo session

-Data Streming da social network e Natural Language Processing

 

Relatori:

Gaetano Fabiano, docente di Informatica, speaker e formatore per diverse realtà aziendali, writer di articoli tecnici e divulgativi e freelancer consultant di sviluppo e trasformazione digitale.