Chuẩn hóa bảng mã tiếng Việt

Được viết bởi webmaster vào ngày 09/08/2020 lúc 05:33 PM

Đã bao giờ bạn gặp lỗi hai từ trông giống hệt nhau nhưng lại không giống nhau chưa? Hãy thử xem ví dụ này (Bạn có thể copy và chạy thử).

0
9140

Chuẩn hóa bảng mã tiếng Việt

Đã bao giờ bạn gặp lỗi hai từ trông giống hệt nhau nhưng lại không giống nhau chưa? Hãy thử xem ví dụ này (Bạn có thể copy và chạy thử).

>>> 'hiếu' == 'hiếu'
True
>>> 'hiếu' == 'hiếu'
False

Nguyên nhân có lẽ là do người dùng sử dụng bộ mã khác nhau khi gõ tiếng Việt. Cụ thể đa số chúng ta đang dùng Unikey với bộ mã Unicode (dựng sẵn). Nhưng ở đâu đó, bộ mã Unicode tổ hợp vẫn được sử dụng. Do đó, đối với các nguồn dữ liệu thu thập trên internet thường bị lẫn cả 2 cách gõ này.

Cách khắc phục: Thay thế cách gõ Unicode tổ hợp bằng cách gõ của Unicode dựng sẵn.

Dưới đây là script dùng để thực hiện công việc thay thế kể trên. Ngoài ra, bạn cũng có thể dùng chức năng convert có sẵn trong Unikey trên Windows của anh Phạm Kim Long.

import regex as re
 
uniChars = "àáảãạâầấẩẫậăằắẳẵặèéẻẽẹêềếểễệđìíỉĩịòóỏõọôồốổỗộơờớởỡợùúủũụưừứửữựỳýỷỹỵÀÁẢÃẠÂẦẤẨẪẬĂẰẮẲẴẶÈÉẺẼẸÊỀẾỂỄỆĐÌÍỈĨỊÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢÙÚỦŨỤƯỪỨỬỮỰỲÝỶỸỴÂĂĐÔƠƯ"
unsignChars = "aaaaaaaaaaaaaaaaaeeeeeeeeeeediiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAAAAAAAAAAAAAAAAEEEEEEEEEEEDIIIOOOOOOOOOOOOOOOOOOOUUUUUUUUUUUYYYYYAADOOU"
 
 
def loaddicchar():
    dic = {}
    char1252 = 'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ'.split(
        '|')
    charutf8 = "à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ".split(
        '|')
    for i in range(len(char1252)):
        dic[char1252[i]] = charutf8[i]
    return dic
 
 
dicchar = loaddicchar()
 
 
def covert_unicode(txt):
    return re.sub(
        r'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ',
        lambda x: dicchar[x.group()], txt)

Nguồn bài viết: Sưu tầm

Bài viết tương tự

BÌNH LUẬN BÀI VIẾT

Bài viết mới nhất

Fix lỗi Sys is not defined và popup không hoạt động trên ASP.NET WebForms khi deploy IIS Xây dựng hệ thống xác thực bảo mật với JWT và Refresh Token trong ASP.NET Core Làm sao để chỉ cho phép một số role truy cập truy vấn $expand=SensitiveData? Hướng dẫn bật chế độ chạy GPU thay CPU Lỗi HTTP Error 500.35 - ASP.NET Core does not support multiple apps in the same app pool Lỗi triển khai ASP.NET Core lên IIS C.O.R.S hoạt động như thế nào? Hướng dẫn xây dựng ứng dụng gửi mail sử dụng công nghệ ReactJS và NodeJS Phân biệt webhook và polling Lỗi https khi thực hiện project oData

Xem tất cả

LIKE BOX

Bài viết được xem nhiều nhất

[TUT]Xây dựng Website Bán Hàng - Hướng dẫn tạo DataBase (97786) LẤY LẠI MẬT KHẨU SA TRONG SQL SERVER 2005 2008 (94555) Một số bài tập mẫu SQL(Phân I) (92786) CSS cho các thẻ theo trạng thái (link, hover, visited, active, focus) (86249) Các kiểu dữ liệu SQL (77215) Chuyển đổi giữa các hệ cơ số (76947) Kiểu dữ liệu Array và List trong C# (71597) Xây dựng Lớp Phân Số. Tính toán Cộng, trừ, nhân, chia (64496) Hướng dẫn khắc phục lỗi không tạo được Diagrams(sơ đồ quan hệ) trong SQL 2005/2008 (58417) [Java] Kết nối CSDL từ NetBean (45589)

Xem tất cả

HỌC HTML

Xem tất cả

Học Hệ thống Mạng

Xem tất cả

Điểm nhấn

Thủ thuật

TRAINING

Chuẩn hóa bảng mã tiếng Việt

Chuẩn hóa bảng mã tiếng Việt

Bài viết tương tự

Bài viết mới nhất

LIKE BOX

Bài viết được xem nhiều nhất

HỌC HTML

Học Hệ thống Mạng

DotNet Group - Chia sẻ & Kết nối