Big Data Applications

Objetivos

O Big Data está em constante evolução à medida que novas tecnologias emergem e as tecnologias existentes amadurecem. Este é um curso abrangente que inclui Spark e elementos-chave do ecossistema Hadoop usados no desenvolvimento de aplicações para o processamento de dados eficiente.
Os alunos que concluírem este curso compreenderão os principais conceitos do Spark e do Hadoop e aprenderão a aplicar essas ferramentas no desenvolvimento de aplicações para resolver problemas de dados das empresas e instituições.

Caracterização geral

Código

200145

Créditos

7.5

Professor responsável

Horas

Semanais - A disponibilizar brevemente

Totais - A disponibilizar brevemente

Idioma de ensino

Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês

Pré-requisitos

Experiência de programação básica em python, bem como familiaridade básica com a linha de comandos do Linux é preferível. Conhecimentos básicos do SQL são úteis; Conhecimento do Hadoop não é necessário.

Bibliografia

Hadoop: The Definitive Guide. Tom White. O'Reilly 2014; Big Data Made Easy: A Working Guide to the Complete Hadoop Toolset. Michael Frampton; 0; 0; 0

Método de ensino

O curso é baseado principalmente em aulas teóricas e práticas. As sessões práticas incluem exposição de conceitos e metodologias, resolução de amostras, discussão e interpretação de resultados.

Método de avaliação

 

Conteúdo

CUC1.Introduction to Hadoop

  • Introduction to Hadoop and the Hadoop Ecosystem
  • Hadoop Architecture and HDFS

CUC2.Importing and Modeling Structured Data

  • Importing Relational Data with Apache Sqoop
  • Introduction to Impala and Hive
  • Modeling and Managing Data with Impala and Hive
  • Data Formats
  • Data File Partitioning

CUC3.Ingesting Streaming Data

  • Capturing Data with Apache Flume

CUC4.Distributed Data Processing with Spark

  • Spark Basics
  • Working with RDDs in Spark
  • Aggregating Data with Pair RDDs
  • Writing and Deploying Spark Applications
  • Parallel Processing in Spark
  • Spark RDD Persistence
  • Common Patterns in Spark Data Processing
  • Spark SQL and DataFrames