Big Data
Objetivos
Basic knowledge of at least one programming language.
Caracterização geral
Código
200144
Créditos
7.5
Professor responsável
Horas
Semanais - A disponibilizar brevemente
Totais - A disponibilizar brevemente
Idioma de ensino
Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês
Pré-requisitos
O curso consiste em diferentes módulos:
- Introdução aos Big Data: desafios e motivações.
- Hadoop: a tecnologia Hadoop permite executar aplicativos em sistemas com milhares de hardware de commodities e também ajuda a lidar com dados enormes. Pode ser definido como um sistema de arquivos distribuídos que permite taxas rápidas de transferência de dados entre nós e também permite que o sistema funcione perfeitamente em caso de falha de um nó. Hadoop é uma tecnologia de computação preferida, especialmente para pequenas empresas que procuram alavancar análises para extrair informações uteis de dados importantes. Isto implica que muitos empregadores procuram contratar candidatos com conhecimento e experiência da tecnologia Hadoop. Este módulo do curso descreve a arquitetura Hadoop e suas vantagens em comparação com às técnicas tradicionais de análise de dados.
- MapReduce: MapReduce como um conceito é o coração de Hadoop. É um conceito de programação que permite ampla escalabilidade em vários servidores no cluster. MapReduce é uma parte de duas tarefas que o Hadoop executa. O MapReduce recebe um conjunto de dados e depois o converte em outro conjunto de dados. Aqui, os elementos individuais são divididos em pares de valores. Isso é conhecido como o trabalho do "map". A próxima função é reduzir o trabalho. Aqui leva a saída do "map" e, em seguida, combina estes pares de dados em um conjunto menor de pares. Portanto, assim como o nome indica o trabalho de redução é realizado somente após o trabalho do "map". No curso, a lógica do MapReduce será explicada e várias soluções para tarefas comuns serão apresentadas.
- Sqoop: O Sqoop é uma ferramenta Big Data, que possui a capacidade de extrair dados a partir de dados não-Hadoop e, em seguida, transforma os dados numa forma que é utilizável pelo Hadoop. Esses dados são posteriormente carregados no Hadoop Distributed File System. Este processo é conhecido como ETL, onde E significa Extract, T significa Transform e L significa Load. O Sqoop também tem a capacidade de obter dados do Hadoop e de uma IGNOREe de dados externa para uso em outros tipos de aplicativos.
- HIVE: a tecnologia Hadoop foi construída para organizar e armazenar enormes quantidades de dados de todas as formas, tamanhos e formatos. A Hive é usada pelos analistas de dados para pesquisar, resumir, explorar e analisar esses dados, depois transformá-lo em visão de negócio acionável. A Hive é definida como um sistema de data warehouse para o Hadoop. A tecnologia Hive foi desenvolvida pelo Facebook. Hive suporta linguagem de definição de dados (DDL), e linguagem de manipulação de dados (DML) e também funções definidas pelo usuário. Hive é usado para projetar estrutura em dados em grande parte não estruturados. Baseia-se nas operações Hadoop e MapReduce e é uma tecnologia "read-based".
- PIG: PIG é definido como uma linguagem de script de alto nível que é usada com o Hadoop. O PIG permite que os analistas de dados escrevam transformações de dados complexas e tornam isso possível mesmo para aqueles que não conhecem a linguagem de programação Java. A linguagem de script tipo SQL do PIG é conhecida como Pig Latin. Um dos principais benefícios do PIG é que o utilizador pode incorporar os scripts PIG em outros idiomas. Por isso, ele é usado como um componente para construir aplicativos maiores e mais complexos que solucionam problemas de negócios. PIG trabalha com os dados de muitas IGNOREes, que inclui dados estruturados e desestruturados e, posteriormente, armazena os resultados no sistema de arquivos de dados Hadoop.
Bibliografia
Hadoop: The Definitive Guide, Tom White.
Método de ensino
First epoch: two tests during the semester (each test contributes 50% for the final grade).
Second epoch: project (70%) and the grade of the mini tests of the first epoch (30%).
Método de avaliação
English.
Conteúdo
Aulas teóricas onde o professor apresentará as principais tecnologias no campo dos Big Data.
Após cada uma das aulas teóricas, os alunos deverão trabalhar numa tarefa prática.
Cursos
Cursos onde a unidade curricular é leccionada: