
Thu thập và xử lý dữ liệu lớn
Khóa học “Thu thập và xử lý dữ liệu lớn” kéo dài 10 tuần với tổng thời lượng 90 giờ, cung cấp cho học viên kiến thức và kỹ năng cần thiết để lập trình và xử lý dữ liệu lớn. Học viên sẽ học lập trình cơ bản với ngôn ngữ Scala, xử lý dữ liệu lớn bằng Apache Spark và Spark Streaming, xây dựng quy trình ETL với Apache Airflow, và triển khai cũng như quản lý quy trình xử lý dữ liệu trên các nền tảng đám mây.
Thời lượng: 90h

Bạn đạt được gì sau khi hoàn thành khóa học

LẬP TRÌNH XỬ LÝ DỮ LIỆU VỚI SCALA
Lập trình với ngôn ngữ Scala để thực hiện các tác vụ xử lý dữ liệu.

XỬ LÝ DỮ LIỆU THỜI GIAN THỰC VỚI APACHE SPARK
Sử dụng Apache Spark và Spark Streaming để xử lý dữ liệu lớn theo thời gian thực.

XÂY DỰNG QUY TRÌNH ETL VỚI APACHE AIRFLOW
Xây dựng và quản lý quy trình ETL (Extract, Transform, Load) với Apache Airflow.

QUẢN LÝ XỬ LÝ DỮ LIỆU TRÊN DỊCH VỤ ĐÁM MÂY.
Triển khai và quản lý quy trình xử lý dữ liệu trên các dịch vụ đám mây như AWS, Azure và Google Cloud

Đối tượng tham gia

Sinh viên năm cuối, người mới tốt nghiệp, kỹ sư dữ liệu và nhà phân tích dữ liệu.

Kỹ sư phần mềm, kỹ sư hệ thống muốn học về các kỹ thuật thu thập và xử lý dữ liệu lớn.

Các chuyên gia IT cần triển khai các quy trình xử lý dữ liệu lớn trong các hệ thống thực tế.

Người chuyển ngành muốn phát triển kỹ năng trong lĩnh vực dữ liệu lớn.

Yêu cầu tiên quyết
Học viên cần có kiến thức cơ bản về lập trình, hệ điều hành Linux, và cơ sở dữ liệu. Hiểu biết sơ lược về dữ liệu lớn và hệ sinh thái dữ liệu là một lợi thế.
Nội dung khóa học
1. Giới thiệu về dữ liệu lớn và hệ sinh thái xử lý dữ liệu
- Tổng quan về dữ liệu lớn và tầm quan trọng của việc thu thập và xử lý dữ liệu.
- Giới thiệu về hệ sinh thái dữ liệu lớn: Hadoop, Spark, Kafka, v.v.
- Ứng dụng của dữ liệu lớn trong các ngành công nghiệp.
2. Lập trình cơ bản với ngôn ngữ Scala
- Giới thiệu về ngôn ngữ Scala: cú pháp cơ bản, kiểu dữ liệu và cấu trúc điều khiển.
- Xử lý tập dữ liệu bằng Scala.
- Thực hành viết các chương trình đơn giản với Scala.
- So sánh Scala với các ngôn ngữ khác trong xử lý dữ liệu lớn.
3. Xử lý dữ liệu với Apache Spark
- Giới thiệu về Apache Spark và các thành phần chính: Spark Core, Spark SQL, DataFrame API.
- Cài đặt và cấu hình Apache Spark.
- Thao tác với DataFrame và thực hiện các truy vấn dữ liệu lớn.
- Thực hành xử lý dữ liệu lớn với Spark.
4. Xử lý dữ liệu thời gian thực với Spark Streaming
- Giới thiệu về xử lý dữ liệu thời gian thực với Spark Streaming.
- Cấu trúc và mô hình xử lý trong Spark Streaming.
- Xử lý luồng dữ liệu từ các nguồn khác nhau như Kafka và HDFS.
- Thực hành xử lý dữ liệu thời gian thực với Spark Streaming.
5. Quản lý quy trình ETL với Apache Airflow
- Giới thiệu về ETL và vai trò trong hệ thống dữ liệu lớn.
- Cấu trúc và luồng công việc của Apache Airflow.
- Tạo và quản lý các DAG (Directed Acyclic Graph) để tự động hóa quy trình ETL.
- Thực hành xây dựng và triển khai một quy trình ETL hoàn chỉnh với Apache Airflow.
6. Kết nối Spark với các dịch vụ lưu trữ đám mây
- Kết nối Apache Spark với AWS S3, Azure Blob Storage và Google Cloud Storage.
- Xử lý và lưu trữ dữ liệu lớn trên các dịch vụ đám mây.
- Thực hành triển khai quy trình xử lý dữ liệu từ đám mây bằng Spark.
7. Tối ưu hóa hiệu suất Spark và quản lý tài nguyên
- Kỹ thuật tối ưu hóa hiệu suất trong Apache Spark.
- Quản lý tài nguyên và phân phối công việc trong Spark.
- Cấu hình Spark để chạy hiệu quả trên các cụm đám mây.
- Thực hành tối ưu hóa xử lý dữ liệu lớn với Spark.
8. Tích hợp và triển khai hệ thống xử lý dữ liệu trên đám mây
- Tích hợp hệ thống Spark và Airflow với các nền tảng đám mây như AWS, Azure, và Google Cloud.
- Triển khai quy trình ETL hoàn chỉnh trên môi trường đám mây.
- Giám sát và tối ưu hóa quá trình xử lý dữ liệu trên đám mây.
- Thực hành triển khai một hệ thống xử lý dữ liệu lớn từ đầu đến cuối.
9. Bảo mật và quản lý quyền truy cập trong hệ thống dữ liệu lớn
- Các nguyên tắc bảo mật trong hệ thống dữ liệu lớn.
- Quản lý quyền truy cập dữ liệu và bảo mật trong Spark và Airflow.
- Áp dụng bảo mật và mã hóa trong việc lưu trữ dữ liệu lớn trên đám mây.
10. Dự án thực hành cuối khóa
- Xây dựng một hệ thống xử lý dữ liệu lớn sử dụng Spark và Airflow trên đám mây.
- Xử lý dữ liệu thời gian thực và lưu trữ trên AWS S3 hoặc Azure Blob.
- Tối ưu hóa và bảo mật hệ thống xử lý dữ liệu.
- Báo cáo và trình bày dự án.

Bài viết liên quan
