Thị giác máy tính (Computer Vision)

RobustX / Chương trình học / Vị trí công việc / Ai Engineer / Thị giác máy tính (Computer Vision)

Khóa học Thị giác máy tính (Computer Vision) cung cấp kiến thức và kỹ năng toàn diện về lĩnh vực thị giác máy tính, giúp học viên sử dụng các công cụ mạnh mẽ như OpenCV, TensorFlow, và PyTorch để xử lý hình ảnh và video. Khóa học sẽ tập trung vào các mô hình học sâu hiện đại như ResNet, ViT, và OpenAI CLIP, cũng như các kỹ thuật tiên tiến như nhận diện đối tượng với YOLO và xử lý video để nhận diện khuôn mặt và hoạt động.

Thời lượng: 72h

Bạn đạt được gì sau khi hoàn thành khóa học

XỬ LÝ HÌNH ẢNH VÀ VIDEO VỚI OPENCV

Sử dụng thành thạo thư viện OpenCV để xử lý hình ảnh và video.

XÂY DỰNG MÔ HÌNH PHÂN LOẠI ẢNH HIỆN ĐẠI

Hiểu và xây dựng các mô hình phân loại ảnh hiện đại như ResNet, Vision Transformer (ViT), và OpenAI CLIP.

ÁP DỤNG KỸ THUẬT NHẬN DIỆN ĐỐI TƯỢNG VỚI YOLO

Áp dụng thành công các kỹ thuật nhận diện đối tượng (Object Detection) như YOLO (You Only Look Once).

PHÂN TÍCH VIDEO VÀ NHẬN DIỆN KHUÔN MẶT/HOẠT ĐỘNG

Xử lý và phân tích video, bao gồm nhận diện khuôn mặt và nhận diện hoạt động trong video.

ỨNG DỤNG THỊ GIÁC MÁY TÍNH VÀO BÀI TOÁN THỰC TẾ

Có khả năng áp dụng các kỹ thuật thị giác máy tính vào các bài toán thực tế như giám sát, nhận diện, và phân tích ảnh/video.

Đối tượng tham gia

Sinh viên và người mới ra trường ngành CNTT, Khoa học Máy tính, hoặc Kỹ thuật phần mềm.

Kỹ sư phần mềm, chuyên viên dữ liệu, hoặc kỹ sư AI muốn ứng dụng thị giác máy tính.

Người đã có nền tảng học sâu, cần mở rộng kiến thức về xử lý ảnh và video.

Người muốn phát triển kỹ năng xây dựng và triển khai giải pháp thị giác máy tính thực tế.

Yêu cầu tiên quyết

Có kiến thức cơ bản về lập trình Python. Đã hiểu về học máy (Machine Learning) và học sâu (Deep Learning). Đã hoàn thành các khóa học về Toán trong AI/ML và Học sâu hoặc có kiến thức tương đương.

Nội dung khóa học

1. Giới thiệu về thị giác máy tính (Computer Vision)

Khái niệm cơ bản và các ứng dụng phổ biến của thị giác máy tính.
Các bài toán thị giác máy tính: phân loại ảnh, phát hiện đối tượng, phân đoạn ảnh, xử lý video.
Giới thiệu về các công cụ và thư viện phổ biến: OpenCV, TensorFlow, PyTorch.

2. Xử lý hình ảnh với OpenCV

Giới thiệu về OpenCV và các tính năng cơ bản.
Xử lý ảnh: chuyển đổi không gian màu, cắt ảnh, làm mờ, biến đổi hình học.
Phát hiện cạnh và phát hiện đường viền trong ảnh.

3. Mạng nơ-ron tích chập (CNN – Convolutional Neural Networks) và phân loại ảnh

Nguyên lý hoạt động của CNN và các ứng dụng trong phân loại ảnh.
Xây dựng và huấn luyện mô hình CNN đơn giản với Keras và TensorFlow.
Phân loại ảnh với các mô hình CNN hiện đại như ResNet.

4. Vision Transformer (ViT) và OpenAI CLIP

Giới thiệu về Vision Transformer (ViT) và cách tiếp cận mới trong phân loại ảnh.
Xây dựng và triển khai mô hình ViT.
Giới thiệu về OpenAI CLIP và cách nó kết hợp văn bản và hình ảnh để giải quyết các bài toán phân loại.

5. Nhận diện đối tượng (Object Detection) với YOLO

Khái niệm và nguyên tắc hoạt động của YOLO (You Only Look Once).
Xây dựng và triển khai mô hình YOLO để phát hiện đối tượng trong ảnh và video.
Tối ưu hóa và cải thiện hiệu suất của mô hình YOLO trong các bài toán thực tế.

6. Xử lý video và nhận diện khuôn mặt

Cách xử lý và phân tích video với OpenCV.
Nhận diện khuôn mặt trong video bằng các kỹ thuật học sâu.
Xử lý các bài toán nhận diện hoạt động trong video.

7. Dự án thực hành cuối khóa

Thực hiện dự án cuối khóa liên quan đến một trong các ứng dụng thị giác máy tính: phân loại ảnh, phát hiện đối tượng, hoặc nhận diện hoạt động trong video.
Thực hành áp dụng các kỹ thuật đã học vào bài toán thực tế, từ thu thập dữ liệu, xây dựng mô hình đến triển khai và đánh giá kết quả.