Buổi 19: Giới thiệu Bigdata ,giới thiệu Datalake và kiến trúc Datalake
Buổi 20: Thiết kế metadata cho datalake, chiến lược ingest data, giới thiệu datalake house (yêu cầu hiểu về Json và XML)
Buổi 21: Pipeline trong Bigdata/Data lake, Các chiến lược ingest dữ liệu
Buổi 22:
- Giới thiệu Hadoop Hdfs
- Giới thiệu hệ thống phân tán
- Kiến trúc HDFS và các thành phần
- Giới thiệu về tư duy lập trình map-reduce
Buổi 23: Giới thiệu spark, các thành phần của spark, cài đặt spark single node
Buổi 24 Spark RDD with Python
Buổi 25 THỰC HÀNH SPARK RDD với Python
Buổi 26 Thực hành SparkSQL với Python
Buổi 27 Spark Streaming – DStream với Python
Buổi 28 Spark Streaming – Struct Streaming với Python
Buổi 29: Tổng kết Module Bigdata, DataLake, Cloud