Cura de Dados

Objectivos

Este curso serve como ponto de entrada de uma série de habilidades de ciência de dados para análise de negócios na era moderna dos big data. Vamos introduzir conceitos de curadoria e gestão de dados com aplicações. Os alunos explorarão as características dos dados e realizarão a curadoria de dados através de experiências práticas, tais como a extração de dados, a discussão de dados, a exploração de dados, a base de dados e o fluxo de trabalho de ciência de dados em termos de Extrato reprodutível- Transform-Load (ETL) processos.
Os alunos não precisam de ter experiência de programação, mas o conhecimento de programação, como R, Matlab, Java, etc, seria altamente preferido.

Caracterização geral

Código

2489

Créditos

3.5

Professor responsável

Qiwei Han

Horas

Semanais - A disponibilizar brevemente

Totais - A disponibilizar brevemente

Idioma de ensino

Inglês

Pré-requisitos

A disponibilizar brevemente

Bibliografia

Este curso não requer nenhum livro, porque a ciência dos dados é um campo em rápida mudança e nenhum livro pode cobrir todos os materiais que vamos ensinar no curso. No entanto, recomenda-se o seguinte livro para a sua referência:
Python para análise de dados: Data Wrangling with Pandas, Numpy e IPython 2ª Edição Python Data Science Handbook Essential Tools for Working with Data, Capítulo 1-3


Método de ensino

Os alunos são obrigados a trazer portáteis próprios para exercícios e quizzes nas aulas. Este curso adota uma cultura de aprendizagem por fazer que permite aos alunos implementar o processo de cura de dados através da programação em Python e SQL. A maioria do material de classe estará nos cadernos jupyter para facilitar práticas reprodutíveis.


Método de avaliação

A avaliação global do desempenho consiste em 4 partes
Participação de turma através de 5 quizzes (20%)
3 atribuição bi-semanal (30%)
Exame final (50%)


Conteúdo

Este curso contém 6 módulos que os alunos aprendem sobre a curadoria de dados através de exercícios práticos de programação. Este curso também servirá como crash course de Python, a linguagem de programação mais popular na era Big Data. A maioria das palestras serão apresentadas usando exemplos Python/SQL.