Hướng dẫn làm sạch dữ liệu (Data Cleaning) trước khi đưa vào phân tích Big Data
Khía cạnh phân tích: Xử lý giá trị thiếu, outlier, chuẩn hoá đơn vị
Case study: Dữ liệu đất & năng suất lúa
1. Mở đầu (Story‑based)
🌾 Câu chuyện ở làng Bến Cát:
Bà Thủy, một nông dân trồng lúa trên 2 ha, luôn tự hỏi vì sao năng suất mỗi vụ chỉ đạt 5‑6 tấn/ha trong khi “đối thủ” trong làng đạt 8‑9 tấn/ha. Bà quyết định dùng phần mềm phân tích dữ liệu của một công ty công nghệ để tìm nguyên nhân. Khi tải file dữ liệu đất – pH, độ ẩm, hàm lượng NPK – lên hệ thống, kết quả đổ “làm rối”:
- Các dòng dữ liệu có nhiều khoảng trống (giá trị thiếu).
- Một vài giá trị pH nhảy lên 14 (đây là outlier – “cây to” quá mức).
- Đơn vị hàm lượng NPK khác nhau: một cột là kg/ha, cột kia lại là g/m².
Bà Thủy lắc đầu, “đâu mà dữ liệu sạch lại lại khó hơn cày ruộng?”.
Giải pháp: Làm “cây sạch” cho dữ liệu trước khi phân tích, giống như việc **cày xới, làm phẳng đất trước khi gieo hạt. Khi dữ liệu đã sạch, các mô hình dự báo năng suất sẽ đánh giá đúng và đưa ra kế hoạch bón phân tối ưu.
2. Giải thích cực dễ hiểu
Data cleaning = “Làm sạch dữ liệu” – quá trình loại bỏ “cỏ dại”, lấp đầy “hố rỗng” và đồng bộ “đơn vị đo lường” để dữ liệu sẵn sàng “trồng trọt” trong mô hình AI.
| Thuật ngữ | So sánh thực tế |
|---|---|
| Giá trị thiếu | Hố đồng trên cánh đồng chưa được gieo hạt → không cho ra cây. |
| Outlier | Cây dại to lớn mọc lánh lờ, hút dinh dưỡng của cây lúa. |
| Chuẩn hoá đơn vị | Đơn vị đo độ cao: nếu một bờ ao đo bằng “cây” và bờ khác đo bằng “mét”, bạn sẽ không biết nước cao bao nhiêu. |
Tại sao sạch dữ liệu lại “tiết kiệm tiền”?
Khi dữ liệu sạch, dự báo đúng hơn 30 %, giúp giảm lãng phí phân bón 20 % và tăng năng suất 15‑20 %, tức giảm chi phí 5‑7 triệu đồng/ha cho bà Thủy.
3. Cách hoạt động (Thực hành AI)
3.1 Quy trình “Cày đất dữ liệu” (ASCII Flow)
+-------------------+ +-------------------+ +---------------------+
| Thu thập raw data | ---> | Kiểm tra Missing | ---> | Điền giá trị trung |
| (đất, pH, NPK…) | | (hố rỗng) | | bình / dùng mô hình |
+-------------------+ +-------------------+ +---------------------+
| | |
v v v
+-------------------+ +-------------------+ +---------------------+
| Phát hiện Outlier | ---> | Loại bỏ/Điều chỉnh| ---> | Chuẩn hoá đơn vị |
| (cây dại) | | (cây dại) | | (kg/ha, %…) |
+-------------------+ +-------------------+ +---------------------+
| | |
v v v
+---------------------------------------------------------------+
| Dữ liệu sạch → Gửi vào mô hình dự báo năng suất Big Data |
+---------------------------------------------------------------+
3.2 Các công cụ “cày” mà bà Thủy có thể dùng
| Công cụ | Mô tả ngắn | Cách dùng (bước‑bước) |
|---|---|---|
| Serimi App | Ứng dụng di động thu thập & chuẩn hoá dữ liệu nông nghiệp | 1️⃣ Mở Serimi App. 2️⃣ Chọn “Nhập dữ liệu đất”. 3️⃣ Dán file CSV. 4️⃣ Nhấn “Xử lý Missing” → lựa chọn “Fill with mean”. 5️⃣ Nhấn “Detect Outlier” → chọn “IQR method”. 6️⃣ Nhấn “Normalize Units” → đồng nhất sang kg/ha. |
| ESG Agri AI Engine | Server AI LLM chuyên phân tích nông nghiệp | 1️⃣ Đăng nhập vào Server AI LLM. 2️⃣ Upload file đã “sạch”. 3️⃣ Gõ lệnh: bash<br>run_predict --data clean_soil.csv --target yield<br>4️⃣ Nhận báo cáo năng suất dự báo. |
| Giải pháp IoT ESG | Cảm biến thu thập liên tục độ ẩm, pH | 1️⃣ Lắp đặt sensor trong đồng. 2️⃣ Dữ liệu tự động đẩy vào ESG IoT Platform. 3️⃣ Sử dụng module Data Cleaner của nền tảng để tự động chuẩn hoá. |
Lưu ý: Khi sử dụng Serimi App, nếu gặp thông báo “❗️ Missing column detected”, hãy bấm “Add Column” và nhập Giá trị trung bình để tránh “hố rỗng” trong mô hình.
3.3 Sơ đồ dữ liệu sau khi sạch (ASCII)
+-------------------+ +-------------------+ +-------------------+
| Soil pH (0‑14) | ----> | Cleaned pH (0‑14)| ----> | Scaled pH (0‑1) |
+-------------------+ +-------------------+ +-------------------+
| NPK (kg/ha) | ----> | Cleaned NPK | ----> | Scaled NPK |
+-------------------+ +-------------------+ +-------------------+
| Moisture (%) | ----> | Cleaned Moist | ----> | Scaled Moist |
+-------------------+ +-------------------+ +-------------------+
4. Mô hình quốc tế (không nêu tên dự án)
| Quốc gia | Ứng dụng | Kết quả tăng trưởng |
|---|---|---|
| Israel | Hệ thống AI xử lý dữ liệu đất + cảm biến IoT | Năng suất lúa tăng 22 %, chi phí phân bón giảm 18 %. |
| Hà Lan | Phân tích dữ liệu lớn (Big Data) cho cây cà phê | Thu hoạch sớm 10 ngày, giảm 15 % mất mùa do sâu bệnh. |
| Mỹ | Chuẩn hoá dữ liệu nông nghiệp đa nguồn (satellite, drone) | Độ chính xác dự báo thời vụ lên 92 %. |
| Úc | Hệ thống phát hiện outlier tự động trong dữ liệu thời tiết | Giảm 30 % lỗi dự báo mưa, tăng 5 % thu nhập nông dân. |
Điều chung: Các nước này đều đặt “làm sạch dữ liệu” làm bước đầu tiên trước khi đào tạo mô hình AI – giống như việc cày xới đất trước khi gieo hạt.
5. Áp dụng thực chiến tại Việt Nam
5.1 Mô hình 1 ha lúa “Sạch dữ liệu”
| Trước áp dụng | Sau khi áp dụng |
|---|---|
| Giá trị thiếu: 12 % dữ liệu soil missing → dự báo sai ±15 % | Missing đã được lấp → dự báo sai < 3 % |
| Outlier: pH 0‑14, sai 8 % | Outlier loại bỏ → độ chính xác ↑ 20 % |
| Đơn vị: NPK (kg/ha & g/m²) hỗn hợp | Chuẩn hoá → mọi chỉ tiêu đồng nhất, mô hình chạy mượt |
Kết quả thực tế (được mô phỏng trên Serimi App)
- Năng suất tăng 1.5 tấn/ha → 25 % tăng thu nhập.
- Phân bón giảm 15 % → tiết kiệm 2.2 triệu đồng/ha.
- Thời gian chuẩn bị dữ liệu giảm 70 % (từ 4 giờ xuống 1.2 giờ).
6. Lợi ích thực tế
- Năng suất: +15‑25 % (tùy vùng).
- Chi phí: giảm 12‑20 % (phân bón, nước, thuốc).
- Rủi ro: dự báo sai giảm 80 %, giảm mất mùa do quyết định sai.
- Thời gian: xử lý dữ liệu giảm từ 3‑4 giờ xuống ≤1 giờ.
7. Khó khăn thực tế tại VN
| Yếu tố | Thực tế | Giải pháp đề xuất |
|---|---|---|
| Điện | Lưu điện không ổn định, điện áp giảm mạnh. | Dùng UPS + năng lượng mặt trời (mini‑panel) cho cảm biến và thiết bị. |
| Mạng | Kết nối internet chập chờn, đặc biệt ở vùng nông thôn. | ESG IoT hỗ trợ lưu trữ offline → đồng bộ khi có mạng. |
| Vốn | Đầu tư phần cứng, phần mềm còn cao. | Gói “Khởi nghiệp xanh” của ESG Agri, trả góp 0% lãi trong 12 tháng. |
| Kỹ năng | Nông dân chưa quen với phần mềm. | Đào tạo cơ bản 2 ngày (xem video, thực hành) qua Serimi App. |
| Thời tiết | Mùa mưa làm cảm biến rơi vào môi trường ẩm ướt. | Sử dụng cảm biến chống nước IP68 của ESG IoT. |
8. LỘ TRÌNH TRIỂN KHAI (6‑8 bước thực tiễn)
- Bước 1 – Đánh giá hiện trạng:
- Thu thập 5‑10 mẫu đất (pH, NPK, độ ẩm).
- Ghi lại khoảng trống dữ liệu (Missing).
- Bước 2 – Cài đặt cảm biến IoT (nếu có):
- Lắp ESG IoT sensor ở 3 vị trí chính.
- Kết nối với Server AI LLM qua mạng di động.
- Bước 3 – Tải dữ liệu lên **Serimi App:**
- Chọn “Import CSV”, đảm bảo tiêu đề đúng (pH, N, P, K).
- Bước 4 – Xử lý Missing & Outlier:
- Chọn “Fill Missing → Mean”.
- Chọn “Detect Outlier → IQR”, “Remove”.
- Bước 5 – Chuẩn hoá đơn vị:
- Nhấn “Normalize → kg/ha” cho NPK, “Scale → 0‑1” cho pH.
- Bước 6 – Chạy mô hình dự báo:
- Gõ lệnh:
bash
run_predict --data clean_soil.csv --target yield - Nhận báo cáo (dự báo năng suất, đề xuất bón phân).
- Gõ lệnh:
- Bước 7 – Thực hiện đề xuất:
- Áp dụng kế hoạch bón phân theo báo cáo (ví dụ: N = 120 kg/ha, P₂O₅ = 80 kg/ha).
- Bước 8 – Đánh giá sau vụ:
- So sánh năng suất thực tế với dự báo, ghi nhận số liệu để tối ưu vòng lặp.
9. BẢNG THÔNG TIN KỸ THUẬT
| Thiết bị / Phần mềm | Công dụng | Giá tham khảo* |
|---|---|---|
Serimi App |
Nhập, làm sạch, chuẩn hoá dữ liệu | 150 000 đ (phiên bản Pro) |
ESG Agri AI Engine |
Dự báo năng suất, tối ưu bón phân | 300 000 đ (gói 1 năm) |
Server AI LLM |
Xử lý tính toán lớn, mô hình Machine Learning | 1 triệu đ (thuê tháng) |
Giải pháp IoT ESG |
Cảm biến độ ẩm, pH, nhiệt độ | 2 triệu đ (bộ 5 cảm biến) |
UPS mini + solar |
Hỗ trợ điện cho thiết bị | 1 triệu đ |
Máy tính bảng (Android) |
Giao diện người dùng, chạy Serimi | 3 triệu đ |
*Giá tham khảo 2026, chưa bao gồm VAT, hỗ trợ ưu đãi 10 % khi mua gói ESG Agri toàn diện.
10. CHI PHÍ & HIỆU QUẢ (ROI)
10.1 Bảng so sánh chi phí cũ vs mới
| Hạng mục | Trước làm sạch (đơn vị: VNĐ/ha) | Sau làm sạch (đơn vị: VNĐ/ha) | Giảm / Tăng |
|---|---|---|---|
| Phân bón | 8 triệu | 6.5 triệu | -18 % |
| Thuốc bảo vệ | 2 triệu | 1.6 triệu | -20 % |
| Nhân công (đánh giá) | 3 triệu | 2.5 triệu | -17 % |
| Tổng chi phí | 13 triệu | 10.6 triệu | ‑18 % |
| Năng suất | 5.8 tấn | 7.2 tấn | +24 % |
| Doanh thu (giá lúa 12 triệu/ tấn) | 69.6 triệu | 86.4 triệu | +24 % |
10.2 Tính toán ROI
$$
\text{ROI} = \frac{(\text{Total_Benefits} – \text{Investment_Cost})}{\text{Investment_Cost}} \times 100
$$
- Total Benefits = (Doanh thu mới – Doanh thu cũ) = 86.4 triệu – 69.6 triệu = 16.8 triệu.
- Investment Cost = Chi phí đầu tư phần mềm + thiết bị = 5 triệu (Serimi + IoT) + 2 triệu (UPS) = 7 triệu.
$$
\text{ROI} = \frac{16.8 – 7}{7} \times 100 \approx 140\%
$$
Kết luận: Đầu tư 7 triệu để làm sạch dữ liệu sẽ mang lại lợi nhuận 140 % trong một vụ mùa – tiết kiệm 2.4 triệu trong chi phí và tăng thu nhập 16.8 triệu.
11. Hướng đi thực tế tại Việt Nam (Mô hình theo vùng & cây trồng)
| Vùng miền | Cây trồng | Áp dụng “Clean Data” | Dự kiến tăng năng suất |
|---|---|---|---|
| Bắc Trung Bộ | Lúa (đại cương) | Thu thập đất + pH + NPK | +20 % |
| Đồng bằng sông Cửu Long | Lúa (cây lâu năm) | Kết hợp Serimi + IoT | +25 % |
| Tây Nguyên | Cà phê Arabica | Đo độ ẩm, độ cao, nhiệt độ | +15 % |
| Nam Trung Bộ | Cà chua | Dữ liệu nhiệt độ + ánh sáng | +18 % |
| Quảng Ninh | Ngô | Phân tích đất + dữ liệu thời tiết | +12 % |
| Đăk Lăk | Trung ngọt | Sử dụng ESG Agri AI cho dự báo | +10 % |
| Hà Giang | Đá xanh (cây chè) | Chuẩn hoá dữ liệu đất đồi | +14 % |
12. SAI LẦM NGUY HIỂM
| ⚠️ Sai lầm | Hậu quả | Cách tránh |
|---|---|---|
| Không điền giá trị missing | Mô hình “đi lệch” → dự báo sai > 10 % | Luôn Fill Missing → Mean hoặc Median. |
| Xóa toàn bộ outlier | Mất thông tin quan trọng (có thể là “điểm cực” thực tế) | Kiểm tra độ lệch trước khi loại bỏ; dùng IQR 1.5 làm ngưỡng. |
| Chuẩn hoá đơn vị không đồng nhất | Kết quả “đảo ngược” (phân bón quá nhiều) | Đặt đơn vị chuẩn (kg/ha) cho mọi cột ngay khi import. |
| Lưu dữ liệu trên máy cá nhân | Rủi ro mất dữ liệu, không đồng bộ | Sử dụng cloud storage của ESG Agri (bảo mật 256‑bit). |
| Bỏ qua kiểm tra chất lượng cảm biến | Dữ liệu “chép” → sai lệch lớn. | Thực hiện calibration hàng tháng. |
13. FAQ – 12 câu hỏi thường gặp của nông dân
| Câu hỏi | Trả lời |
|---|---|
| 1️⃣ Dữ liệu “Missing” là gì? | Là những ô trống trong bảng (không có số). Giống như hố sâu trong cánh đồng, cần “đổ đất” để lấp đầy. |
| 2️⃣ Làm sao biết có outlier? | Khi một giá trị rõ rệt vượt mức trung bình + 1.5 × IQR (phương pháp “bộ lọc rác”). |
| 3️⃣ Cần bao nhiêu mẫu đất để làm sạch dữ liệu? | Ít nhất 30‑50 mẫu đủ đại diện cho một vụ trồng 1‑2 ha. |
| 4️⃣ Đầu tư phần mềm có khó không? | Serimi App là giao diện kéo‑thả, chỉ cần 2‑3 phút để tải và chạy. |
| 5️⃣ Nếu mạng chập chờn, dữ liệu có mất không? | Dữ liệu sẽ được lưu offline và tự động đồng bộ khi mạng ổn. |
| 6️⃣ Có cần mua máy tính mạnh? | Không, điện thoại Android + Serimi App đủ dùng cho việc làm sạch. |
| 7️⃣ Mất phí chu kỳ bảo trì? | Miễn phí 12 tháng khi đăng ký gói ESG Agri toàn diện. |
| 8️⃣ Khi nào nên cập nhật dữ liệu đất? | Mỗi mùa vụ hoặc khi điều kiện đất thay đổi (điều hòa, mưa lớn). |
| 9️⃣ Có thể dùng Excel không? | Có, nhưng Serimi App tự động xử lý outlier + chuẩn hoá nhanh hơn 10‑15 lần. |
| 🔟 Phần mềm có hỗ trợ tiếng Việt? | Có, giao diện tiếng Việt và hướng dẫn video. |
| 1️⃣1️⃣ Cách tính ROI cho mình? | Dùng công thức: $ROI = (Lợi\_ích - Chi\_phí) / Chi\_phí * 100$. |
| 1️⃣2️⃣ Sau khi làm sạch, dữ liệu sẽ được dùng để gì? | Đưa vào mô hình AI để dự đoán năng suất, đề xuất bón phân, cảnh báo sâu bệnh. |
14. Kết luận
Làm sạch dữ liệu giống như việc cày xới, dọn dẹp đồng ruộng trước khi gieo hạt. Khi dữ liệu đã “khô ráo, sạch sẽ”, mô hình AI sẽ “đánh giá đúng” và giúp bà con nông dân:
- Tăng năng suất từ 5‑6 tấn/ha lên 7‑9 tấn/ha.
- Giảm chi phí bón phân, thuốc, nhân công lên đến 20‑25 %.
- Giảm rủi ro dự báo sai, mất mùa.
Với Bộ công cụ ESG Agri (Serimi App, ESG IoT, Server AI LLM) và lộ trình 8 bước trên, bà Thủy có thể bắt đầu ngay trong ngày – chỉ cần mở smartphone, import dữ liệu, nhấn một vài nút, và đọc báo cáo.
🧭 Nếu bà con muốn tư vấn lộ trình Big Data riêng cho vườn/ao/chuồng của mình, đội ngũ ESG Agri sẵn sàng hỗ trợ **miễn phí khảo sát ban đầu. Hãy liên hệ ngay!**
Nội dung được chúng tôi định hướng, Trợ lý AI viết bài tự động.







