RobustX / Chương trình học / Vị trí công việc / Data Engineer / Hệ lưu trữ dữ liệu lớn

Hệ lưu trữ dữ liệu lớn

Khóa học “Hệ lưu trữ dữ liệu lớn” kéo dài 8 tuần với tổng thời lượng 72 giờ, được thiết kế nhằm cung cấp cho học viên các kiến thức và kỹ năng cần thiết về việc xây dựng, triển khai và quản lý hệ thống lưu trữ dữ liệu lớn hiện đại. Học viên sẽ được học cách tạo ra và quản lý các hệ thống Data Lake và Lake House, cài đặt và sử dụng các công cụ trong hệ sinh thái Hadoop, làm việc với các dịch vụ lưu trữ đám mây như AWS S3 và Azure Blob, cũng như quản lý dữ liệu NoSQL với HBase và Cassandra.

Thời lượng: 72h

Bạn đạt được gì sau khi hoàn thành khóa học

Đối tượng tham gia

Yêu cầu tiên quyết

Học viên cần có kiến thức cơ bản về hệ thống máy tính và lập trình. Không yêu cầu kinh nghiệm với cơ sở dữ liệu trước đó, nhưng kiến thức cơ bản về lập trình SQL hoặc các khái niệm về dữ liệu sẽ là lợi thế.

Nội dung khóa học

 1. Giới thiệu về hệ lưu trữ dữ liệu lớn và Data Lake
  • Khái niệm về hệ thống lưu trữ dữ liệu lớn và tầm quan trọng trong thời đại dữ liệu.
  • Giới thiệu về Data Lake: định nghĩa, kiến trúc và các thành phần chính.
  • Phân biệt Data Lake và Data Warehouse.
  • Ứng dụng Data Lake trong lưu trữ và phân tích dữ liệu lớn.
 2. Kiến trúc và thiết kế hệ thống Data Lake và Lake House
  • Kiến trúc Data Lake House: kết hợp giữa Data Lake và Data Warehouse.
  • Thiết kế hệ thống Data Lake hiệu quả: từ nguồn dữ liệu đến phân tích dữ liệu.
  • Các mô hình lưu trữ dữ liệu và phương pháp tổ chức dữ liệu trong Data Lake.
  • Thực hành thiết kế một hệ thống Data Lake mẫu.
 3. Hệ sinh thái Hadoop và cài đặt HDFS
  • Giới thiệu về hệ sinh thái Hadoop và các thành phần chính: HDFS, YARN, MapReduce, và Hive.
  • Cài đặt và cấu hình HDFS (Hadoop Distributed File System).
  • Quản lý không gian lưu trữ và sao lưu trong HDFS.
  • Thực hành quản lý dữ liệu trên HDFS.
 4. Sử dụng YARN và MapReduce trong Hadoop
  • Hiểu và cấu hình YARN để quản lý tài nguyên trong Hadoop.
  • Nguyên lý hoạt động của MapReduce và các ứng dụng trong xử lý dữ liệu lớn.
  • Viết và chạy các chương trình MapReduce.
  • Thực hành xử lý dữ liệu lớn với MapReduce.
 5. Quản lý và phân tích dữ liệu với Hive
  • Giới thiệu về Apache Hive: kiến trúc và vai trò trong hệ sinh thái Hadoop.
  • Sử dụng HiveQL để truy vấn dữ liệu trong HDFS.
  • Tạo bảng và thao tác dữ liệu trong Hive.
  • Thực hành phân tích dữ liệu lớn với Hive.
 6. Sử dụng dịch vụ lưu trữ đám mây (AWS S3, Azure Blob)
  • Giới thiệu về dịch vụ lưu trữ đám mây AWS S3 và Azure Blob.
  • Tạo và quản lý bucket trong AWS S3 và container trong Azure Blob.
  • Phương pháp tối ưu hóa chi phí và hiệu suất lưu trữ trên đám mây.
  • Thực hành lưu trữ và truy xuất dữ liệu trên các dịch vụ đám mây.
 7. Quản lý dữ liệu NoSQL với HBase
  • Giới thiệu về HBase và cách sử dụng trong quản lý dữ liệu NoSQL.
  • Kiến trúc và các thành phần chính của HBase.
  • Cài đặt và cấu hình HBase.
  • Thao tác với dữ liệu trong HBase: CRUD (Create, Read, Update, Delete) và quản lý bảng.
 8. Quản lý dữ liệu NoSQL với Cassandra
  • Giới thiệu về Cassandra và ứng dụng trong lưu trữ dữ liệu phi cấu trúc.
  • Kiến trúc phân tán của Cassandra và lợi ích trong quản lý dữ liệu lớn.
  • Cài đặt và cấu hình Cassandra.
  • Thao tác với dữ liệu trong Cassandra: tạo bảng, truy vấn, và tối ưu hóa.
 9. Tích hợp hệ thống lưu trữ với các công cụ phân tích dữ liệu
  • Tích hợp Data Lake với các công cụ phân tích dữ liệu như Spark và Flink.
  • Kết nối và truy xuất dữ liệu từ Data Lake vào các hệ thống phân tích.
  • Thực hành xử lý và phân tích dữ liệu lớn từ Data Lake với Spark.
 10. Bảo mật và quản lý quyền truy cập trong hệ thống lưu trữ dữ liệu lớn
  • Các nguyên tắc và công cụ bảo mật trong hệ thống lưu trữ dữ liệu lớn.
  • Quản lý quyền truy cập dữ liệu và bảo mật dữ liệu trong Hadoop và HDFS.
  • Áp dụng mã hóa và giám sát truy cập dữ liệu trên dịch vụ đám mây.
  • Thực hành cấu hình bảo mật cho hệ thống lưu trữ dữ liệu.
11. Dự án thực hành cuối khóa
  • Thiết kế và triển khai một hệ thống Data Lake hoàn chỉnh, bao gồm cả phần lưu trữ và xử lý dữ liệu.
  • Sử dụng Hadoop và các công cụ trong hệ sinh thái để quản lý dữ liệu lớn.
  • Thực hiện tối ưu hóa hiệu suất và bảo mật cho hệ thống lưu trữ.
  • Thực hành tích hợp dịch vụ lưu trữ đám mây và NoSQL trong dự án.

Bài viết liên quan