Trong quá trình làm việc với file văn bản, đôi khi vì một lý do nào đó chúng ta sẽ gặp vấn đề lỗi encoding, đặc biệt do mình hay làm việc với dữ liệu tiếng Việt nên thường phải xử lý vấn đề này.
Để kiểm tra encoding của một file văn bản, hãy dùng command sau:
$ file teencode.txt
teencode.txt: UTF-8 Unicode text, with very long lines
Nếu đó là UTF-8 thì không có vấn đề gì rồi. Nhưng nếu kết quả là 1 loại encoding khác, bạn vẫn có thể chuyển lại về UTF-8 theo cách sau đây (giả sử cần chuyển từ UTF16 về UTF8)
# iconv options -f from-encoding -t to-encoding inputfile(s) -o outputfile
$ iconv -f UTF-16 -t UTF-8 filename -o output
Xem các encoding mà iconv hỗ trợ bằng cách dùng command: