📝 Giới thiệu khóa học
Khoá học tập trung vào kỹ thuật tiền xử lý dữ liệu văn bản – bước đầu tiên và quan trọng trong mọi dự án xử lý ngôn ngữ tự nhiên (NLP), học máy và AI ngôn ngữ.
Phù hợp với người học AI/NLP, nhà phân tích dữ liệu, kỹ sư học máy, content marketer, sinh viên ngành dữ liệu và CNTT.
Giúp bạn biến văn bản thô (raw text) thành dạng có thể phân tích, học và huấn luyện mô hình.
Thực hành tiền xử lý với Python (NLTK, spaCy, regex, pandas), áp dụng trên dữ liệu mạng xã hội, email, đánh giá khách hàng…
🎯 Bạn sẽ học được gì
-
Hiểu vai trò và tầm quan trọng của tiền xử lý văn bản
-
Làm sạch dữ liệu văn bản: loại bỏ dấu câu, số, ký tự đặc biệt, HTML…
-
Chuyển đổi chữ hoa – thường, chuẩn hóa tiếng Việt
-
Tách từ (tokenization) cho tiếng Anh và tiếng Việt
-
Loại bỏ stop words (từ dừng), từ không mang ý nghĩa
-
Thực hiện stemming và lemmatization
-
Biến văn bản thành số bằng Bag of Words, TF-IDF
-
Sử dụng biểu thức chính quy (regex) để lọc thông tin văn bản
-
Xử lý văn bản đa ngôn ngữ, dữ liệu mạng xã hội, comment, survey
-
Tạo pipeline tiền xử lý tự động hóa với Python
-
Chuẩn bị dữ liệu đầu vào cho các mô hình học máy
-
Kết nối tiền xử lý với hệ thống NLP, Chatbot, Phân tích cảm xúc
Tính năng của khóa học
- Bài giảng 15
- Bài kiểm tra 0
- Thời gian 10 weeks
- Trình độ kỹ năng All levels
- Ngôn ngữ Tiếng anh
- Học sinh 0
- Giấy chứng nhận Không có
- Đánh giá Đúng
- 5 Sections
- 15 Lessons
- 10 Weeks
- PHẦN 1: TỔNG QUAN VỀ TIỀN XỬ LÝ VĂN BẢN3
- PHẦN 2: LÀM SẠCH DỮ LIỆU VĂN BẢN3
- PHẦN 3: TÁCH TỪ – CHUẨN HOÁ – MÃ HÓA3
- PHẦN 4: XỬ LÝ ĐẶC BIỆT & TỰ ĐỘNG HÓA3
- PHẦN 5: MINI PROJECT3