Ngoài các kỹ thuật mình giới thiệu ở trên, mục này mình sẽ để lại một số tài nguyên hữu ích cho bài toán xử lý tiếng Việt.
Thư viện chuẩn hóa văn bản Tiếng Việt (Có sẵn wrapper cho Python) của anh langman (ai chơi Cộng đồng C Việt chắc khá quen nickname này). Thư viện này giúp bạn xử lý một số vấn đề thiếu nhất quán trong tiếng Việt, và một số vấn đề khác như sửa lỗi chính tả. Xem tại:
https://github.com/langmaninternet/VietnameseTextNormalizer