RobustX / Chương trình học / Vị trí công việc / Data Analyst / Phân Tích Dữ Liệu và Mô Hình Học Máy với Python

Phân Tích Dữ Liệu và Mô Hình Học Máy với Python

Khóa học “Phân Tích Dữ Liệu và Mô Hình Học Máy với Python” cung cấp cho học viên kiến thức về các thuật toán học máy (Machine Learning) có giám sát và không giám sát. Học viên sẽ sử dụng Python và thư viện scikit-learn để xây dựng các mô hình học máy, thực hiện phân loại, phân cụm, dự đoán, và phát hiện bất thường. Khóa học cũng sẽ hướng dẫn cách đánh giá và tối ưu hóa các mô hình để nâng cao hiệu suất và tính chính xác của chúng trong các bài toán thực tế.

Thời lượng: 54h

Bạn đạt được gì sau khi hoàn thành khóa học

Đối tượng tham gia

Yêu cầu tiên quyết

Kiến thức cơ bản về lập trình Python và xử lý dữ liệu bằng các thư viện như pandas, matplotlib. Kiến thức cơ bản về xác suất, thống kê, và toán học là một lợi thế. 

Nội dung khóa học

TUẦN 1: Giới thiệu học máy và Python cho học máy
  • Giới thiệu về học máy:
    + Học máy có giám sát và không giám sát.
    + Các ứng dụng của học máy trong thực tế: Phân loại, phân cụm, dự đoán.
  • Python cho học máy:
    + Giới thiệu về thư viện scikit-learn.
  • Các bước để xây dựng một mô hình học máy.
    + Thực hành: Cài đặt scikit-learn và làm quen với các hàm cơ bản để xử lý dữ liệu và xây dựng mô hình.
TUẦN 2: Học máy có giám sát – Phân loại
  • Thuật toán phân loại (Classification Algorithms):
    + Hồi quy logistic (Logistic Regression).
    + K-Nearest Neighbors (KNN).
    + Hỗ trợ vector máy (Support Vector Machine – SVM).
  • Xây dựng mô hình phân loại:
    + Sử dụng scikit-learn để xây dựng và huấn luyện mô hình phân loại.
    + Thực hành: Áp dụng các thuật toán phân loại trên các tập dữ liệu thực tế, đánh giá kết quả bằng các chỉ số hiệu suất (accuracy, precision, recall, F1-score).
TUẦN 3: Học máy không giám sát – Phân cụm
  • Thuật toán phân cụm (Clustering Algorithms):
    + K-means clustering.
    + Phân cụm phân cấp (Hierarchical Clustering).
  • Xây dựng mô hình phân cụm:
    + Áp dụng scikit-learn để xây dựng và huấn luyện mô hình phân cụm.
    + Thực hành: Sử dụng K-means và phân cụm phân cấp để phân tích và chia cụm dữ liệu thực tế.
TUẦN 4: Đánh giá và tối ưu hóa mô hình học máy
  • Đánh giá mô hình (Model Evaluation):
    + Sử dụng các chỉ số đánh giá hiệu suất mô hình: Confusion matrix, accuracy, precision, recall, F1-score, ROC curve, AUC.
    + Thực hành: Đánh giá và so sánh các mô hình phân loại đã xây dựng.
  • Tối ưu hóa mô hình (Model Optimization):
    + Kỹ thuật phân chia dữ liệu: K-fold cross validation.
    + Tối ưu hóa tham số (Hyperparameter tuning) bằng GridSearchCV.
    + Thực hành: Tinh chỉnh các tham số mô hình để cải thiện hiệu suất.
TUẦN 5: Xử lý các bài toán thực tế và phát hiện bất thường
  • Xử lý các bài toán phân loại và dự đoán:
    + Áp dụng mô hình học máy để giải quyết các bài toán phân loại và dự đoán trong thực tế.
    + Thực hành: Xây dựng một mô hình dự đoán (ví dụ: dự đoán khả năng rời khỏi dịch vụ của khách hàng).
  • Phát hiện bất thường (Anomaly Detection):
    + Giới thiệu về các phương pháp phát hiện bất thường.
    + Áp dụng các kỹ thuật phát hiện bất thường trong dữ liệu.
    + Thực hành: Phát hiện dữ liệu bất thường từ tập dữ liệu thực tế.
TUẦN 6: Dự án cuối khóa – Xây dựng mô hình học máy hoàn chỉnh
  • Xây dựng mô hình học máy hoàn chỉnh:
    + Từ bước chuẩn bị dữ liệu, xây dựng mô hình, tối ưu hóa và đánh giá.
  • Dự án cuối khóa:
    + Học viên sẽ thực hiện dự án cuối khóa bao gồm phân tích dữ liệu, xây dựng mô hình phân loại hoặc phân cụm và tối ưu hóa mô hình dựa trên một tập dữ liệu thực tế.
    + Học viên phải trình bày và báo cáo kết quả phân tích cũng như đánh giá mô hình của mình.

Bài viết liên quan