Trong bài viết này, chúng ta sẽ tìm hiểu cách xử lý dữ liệu “na ná” nhau, ví dụ như tên tỉnh thành bị nhập sai hoặc có dấu khác nhau, bằng tính năng Fuzzy Matching trong Power Query. Kỹ thuật này giúp nhóm các đối tượng lại với nhau, phục vụ cho việc tạo báo cáo chính xác và hiệu quả.
Lỗi Kí Tự – Lỗi Bộ Gõ?
Khi làm việc với dữ liệu tỉnh thành, đôi khi chúng ta gặp phải tình huống tên tỉnh bị trùng lặp, mặc dù khi dùng hàm COUNTIF
kết quả trả về vẫn chính xác.
Dữ liệu tỉnh thành bị trùng lặp
Kết quả COUNTIF vẫn chính xác
Lưu ý: Cần xem xét kỹ khi dùng
COUNTIF
với dữ liệu dạng văn bản.
Sử dụng công cụ Diff Checker cho thấy sự khác biệt giữa hai từ “Hải”.
Kết quả Diff Checker
Kiểm tra bằng hàm EXACT
trong Excel trả về kết quả FALSE
.
Kết quả hàm EXACT
Kết quả hàm EXACT trong Excel
Sử dụng hàm SEARCH
cũng cho thấy sự khác biệt.
Kết quả hàm SEARCH
Lưu ý: Sử dụng các hàm xử lý chuỗi kí tự sẽ cho kết quả chính xác hơn.
Phân tích sâu hơn bằng hàm UNICODE
cho thấy sự khác biệt nằm ở mã Unicode của kí tự “ả”.
Kết quả hàm UNICODE
Nguyên nhân có thể do bộ gõ hoặc cách bỏ dấu khác nhau. Vậy làm thế nào để khắc phục vấn đề này?
Fuzzy Matching trong Power Query
Fuzzy Matching trong Power Query là giải pháp hiệu quả để nhóm các giá trị gần giống nhau. Dưới đây là các bước thực hiện:
- Định dạng dữ liệu thành bảng trong Excel.
Định dạng dữ liệu thành bảng
- Đưa dữ liệu vào Power Query.
Đưa dữ liệu vào Power Query
- Sử dụng tính năng Merge Queries với Fuzzy matching.
Sử dụng Merge Queries với Fuzzy Matching
- Tạo Custom Column để lấy giá trị đầu tiên trong dữ liệu self-merge, sau đó Expand Column.
Tạo Custom Column
Expand Column
- Xóa cột cũ, giữ cột mới, thực hiện Group By với thao tác All rows.
Group By với All rows
- Kết quả:
Kết quả sau khi xử lý
Dữ liệu tỉnh thành đã được nhóm lại chính xác.
Kết Luận
Fuzzy Matching trong Power Query là một công cụ mạnh mẽ để xử lý dữ liệu “na ná” nhau, giúp làm sạch và chuẩn hóa dữ liệu, đặc biệt hữu ích trong việc phân tích và báo cáo. Hy vọng bài viết này giúp bạn hiểu rõ hơn về cách sử dụng Fuzzy Matching trong Power Query để xử lý dữ liệu tỉnh thành. Bạn có thể tìm hiểu thêm về Power Query tại các bài viết khác trên blog Học Excel Online.
Discussion about this post