Phân Tích Dữ Liệu và Mô Hình Học Máy với Python

RobustX / Chương trình học / Vị trí công việc / Data Analyst / Phân Tích Dữ Liệu và Mô Hình Học Máy với Python

Khóa học “Phân Tích Dữ Liệu và Mô Hình Học Máy với Python” cung cấp cho học viên kiến thức về các thuật toán học máy (Machine Learning) có giám sát và không giám sát. Học viên sẽ sử dụng Python và thư viện scikit-learn để xây dựng các mô hình học máy, thực hiện phân loại, phân cụm, dự đoán, và phát hiện bất thường. Khóa học cũng sẽ hướng dẫn cách đánh giá và tối ưu hóa các mô hình để nâng cao hiệu suất và tính chính xác của chúng trong các bài toán thực tế.

Thời lượng: 54h

Bạn đạt được gì sau khi hoàn thành khóa học

HIỂU THUẬT TOÁN SUPERVISED VÀ UNSUPERVISED LEARNING

Hiểu các thuật toán học máy có giám sát (supervised learning) và không giám sát (unsupervised learning).

XÂY DỰNG MÔ HÌNH HỌC MÁY VỚI SCIKIT-LEARN

Thành thạo việc sử dụng thư viện scikit-learn để xây dựng và triển khai các mô hình học máy như phân loại, phân cụm.

ĐÁNH GIÁ HIỆU SUẤT MÔ HÌNH BẰNG CÁC CHỈ SỐ

Đánh giá hiệu suất của mô hình học máy bằng các chỉ số như accuracy, precision, recall, và F1-score.

TỐI ƯU VÀ TINH CHỈNH HYPERPARAMETERS MÔ HÌNH

Biết cách tối ưu hóa mô hình và tinh chỉnh các tham số (hyperparameters) để đạt được hiệu suất tốt nhất.

PHÂN LOẠI, DỰ ĐOÁN VÀ PHÁT HIỆN BẤT THƯỜNG

Có khả năng áp dụng các thuật toán học máy vào các bài toán thực tế như phân loại, dự đoán, và phát hiện bất thường trong dữ liệu.

ĐÁNH GIÁ VÀ TỐI ƯU HÓA MÔ HÌNH HỌC MÁY

Kỹ năng đánh giá và tối ưu hóa mô hình bằng cách sử dụng các phương pháp như cross-validation, điều chỉnh hyperparameter.

Đối tượng tham gia

Sinh viên: Ngành dữ liệu, CNTT, tài chính, kinh tế.

Nhà phân tích dữ liệu: Nâng cao học máy và phân tích bằng Python.

Kỹ sư phần mềm: Ứng dụng học máy vào công việc.

Người làm dữ liệu: Học thuật toán học máy cho bài toán thực tế.

Yêu cầu tiên quyết

Kiến thức cơ bản về lập trình Python và xử lý dữ liệu bằng các thư viện như pandas, matplotlib. Kiến thức cơ bản về xác suất, thống kê, và toán học là một lợi thế.

Nội dung khóa học

TUẦN 1: Giới thiệu học máy và Python cho học máy

Giới thiệu về học máy:
+ Học máy có giám sát và không giám sát.
+ Các ứng dụng của học máy trong thực tế: Phân loại, phân cụm, dự đoán.
Python cho học máy:
+ Giới thiệu về thư viện scikit-learn.
Các bước để xây dựng một mô hình học máy.
+ Thực hành: Cài đặt scikit-learn và làm quen với các hàm cơ bản để xử lý dữ liệu và xây dựng mô hình.

TUẦN 2: Học máy có giám sát – Phân loại

Thuật toán phân loại (Classification Algorithms):
+ Hồi quy logistic (Logistic Regression).
+ K-Nearest Neighbors (KNN).
+ Hỗ trợ vector máy (Support Vector Machine – SVM).
Xây dựng mô hình phân loại:
+ Sử dụng scikit-learn để xây dựng và huấn luyện mô hình phân loại.
+ Thực hành: Áp dụng các thuật toán phân loại trên các tập dữ liệu thực tế, đánh giá kết quả bằng các chỉ số hiệu suất (accuracy, precision, recall, F1-score).

TUẦN 3: Học máy không giám sát – Phân cụm

Thuật toán phân cụm (Clustering Algorithms):
+ K-means clustering.
+ Phân cụm phân cấp (Hierarchical Clustering).
Xây dựng mô hình phân cụm:
+ Áp dụng scikit-learn để xây dựng và huấn luyện mô hình phân cụm.
+ Thực hành: Sử dụng K-means và phân cụm phân cấp để phân tích và chia cụm dữ liệu thực tế.

TUẦN 4: Đánh giá và tối ưu hóa mô hình học máy

Đánh giá mô hình (Model Evaluation):
+ Sử dụng các chỉ số đánh giá hiệu suất mô hình: Confusion matrix, accuracy, precision, recall, F1-score, ROC curve, AUC.
+ Thực hành: Đánh giá và so sánh các mô hình phân loại đã xây dựng.
Tối ưu hóa mô hình (Model Optimization):
+ Kỹ thuật phân chia dữ liệu: K-fold cross validation.
+ Tối ưu hóa tham số (Hyperparameter tuning) bằng GridSearchCV.
+ Thực hành: Tinh chỉnh các tham số mô hình để cải thiện hiệu suất.

TUẦN 5: Xử lý các bài toán thực tế và phát hiện bất thường

Xử lý các bài toán phân loại và dự đoán:
+ Áp dụng mô hình học máy để giải quyết các bài toán phân loại và dự đoán trong thực tế.
+ Thực hành: Xây dựng một mô hình dự đoán (ví dụ: dự đoán khả năng rời khỏi dịch vụ của khách hàng).
Phát hiện bất thường (Anomaly Detection):
+ Giới thiệu về các phương pháp phát hiện bất thường.
+ Áp dụng các kỹ thuật phát hiện bất thường trong dữ liệu.
+ Thực hành: Phát hiện dữ liệu bất thường từ tập dữ liệu thực tế.

TUẦN 6: Dự án cuối khóa – Xây dựng mô hình học máy hoàn chỉnh

Xây dựng mô hình học máy hoàn chỉnh:
+ Từ bước chuẩn bị dữ liệu, xây dựng mô hình, tối ưu hóa và đánh giá.
Dự án cuối khóa:
+ Học viên sẽ thực hiện dự án cuối khóa bao gồm phân tích dữ liệu, xây dựng mô hình phân loại hoặc phân cụm và tối ưu hóa mô hình dựa trên một tập dữ liệu thực tế.
+ Học viên phải trình bày và báo cáo kết quả phân tích cũng như đánh giá mô hình của mình.