|
Docente
|
CARDELLINI VALERIA
(programma)
Introduzione ai Big Data: motivazioni, problemi e sfide. Sistemi di storage per Big Data: file system distribuiti, data store NoSQL e database NewSQL; casi di studio: HDFS, Dynamo, Bigtable, HBase, Cassandra e Neo4j. Laboratorio: HDFS, Redis, MongoDB, HBase, Neo4j. Sistemi per l’acquisizione ed il caricamento di Big data; richiami su sistemi pub/sub e code di messaggi, sistemi di raccolta; casi di studio: Kafka, Flume, Nifi, e Sqoop. Laboratorio: Kafka. Sistemi per il processamento batch. Casi di studio: Hadoop, Spark. Laboratorio: Hadoop, Spark, Spark SQL. Sistemi per il processamento di dati stream. Casi di studio: Flink, Heron, Spark Streaming, Storm. Soluzioni avanzate per il processamento congiunto di dati batch e stream. Laboratorio: Flink, Spark Streaming, Kafka Streaming. Applicazioni di Big Data: design pattern, analisi di applicazioni esistenti. Servizi Cloud per Big data (provider AWS e GCP). Framework per la gestione delle risorse di un cluster per Big Data; casi di studio: Mesos. Introduzione a machine learning distribuito e federated learning.
 A. Bahga, V. Madisetti, Cloud Computing Solutions Architect: A Hands-On Approach, 2019.
M. Kleppman, Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, O'Reilly, 2017.
|