การเตรียมข้อมูลเพื่อแยกหมวดหมู่ชนิดข้อมูล คืออะไร ?

การเตรียมข้อมูล (Data Preprocessing) เป็นขั้นตอนแรกก่อนการทำเหมืองข้อมูลที่จะสามารถปรับปรุงคุณภาพโดยรวมของรูปแบบที่จากการทำเหมืองข้อมูล หรือก่อนถึงเวลาที่จะทำเหมืองจริง ข้อมูลก็มีขนาดใหญ่มาก ๆ (Big Data) ในการทำเหมือนข้อมูล จึงต้องมีการจัดเตรียมข้อมูลเอาไว้ และสืบค้นพบความรู้ในฐานข้อมูล เพื่อให้ข้อมูลมีคุณภาพมากยิ่งขึ้น
ทำไมต้องมีการเตรียมข้อมูล?
สาเหตุมาจากข้อมูลในความเป็นจริงคือข้อมูลไม่การจัดเรียมข้อมูลให้เป็นระเบียบ ดังนั้นสามารถแบ่งเป็น 3 ข้อมูล ได้คือ
- ข้อมูลไม่สมบูรณ์ หรือ Incomplete Data คือ ค่าข้อมูลขาดลักษณะไป ขาดคุณลักษณะที่น่าสนใจไปหรือขาดคำอธิบายของข้อมูลนั้น ๆ
- ข้อมูลรบกวน หรือ Noisy Data คือ ข้มูลที่มีค่าผิดพลาด (Error) หรือมีค่าผิดปกติ
- ข้อมูลไม่สอคคล้อง หรือ Inconsistent Data ตามชื่อเลย ก็คือ ข้อมูลชุดเดียวกัน แต่ชื่อต่างกัน หรือใช้ค่าข้อมูลที่แตกต่างกัน
เทคนิคการเตรียมข้อมูล
- การทำความสะอาดข้อมูล (Data Cleaning) เนื่องจากข้อมูลจริงอาจไม่สมบูรณ์และมีค่าที่ขาดหายไป ดังนั้นควรปรับปรุงข้อมูลให้มีความเรียบร้อยมากขึ้น
การจัดการข้อมูลค่าที่ขาดหาย
- การตัดทิ้งรายการที่มีข้อมูลสูญหาย (Ignore the tuple) เป็นที่นิยมใช้กับการทำเหมือนข้อมูลแบบจำแนบประเภท และในกรณีที่ค่าลักษณะได้ขาดหายไปเป็นจำนวนมาก
- เติมค่าที่ขาดหายด้วยมือ (Fill in the missing value manually) เป็นวิธีที่ไม่เหมาะสมกับกรณีที่ชุดข้อมูลมีขนาดใหญ่มาก ๆ และมีข้อมุลขาดหายเป็นจำนวนมาก
- เติมค่าคุณลักษณะของข้อมูลที่ขาดหายทุกค่า (Use a global constant to fill in the missing value) ด้วยเปลี่ยนค่าคงที่เป็นค่าหนึ่ง เช่น ไม่รู้ค่า หรือ Unknown เป็นต้น
- ใช้ค่าเฉลี่ยของคุณลักษณะ (Use the attribute mean to fill in the missing value) คือ เติมค่าข้อมูลที่ขาดหาย เช่น ถ้าเราทราบว่าผู้ใช้งานมีรายได้เฉลี่ยปีละ 1,150,000 บาท จะใช้ค่านี้แทนค่ารายได้ของผู้ใช้งานที่ขาดหายไป
- ใช้ค่าเฉลี่ยคุณลักษณะของตัวอย่างที่จัดอยู่ในประเภทเดียวกัน (Use the attribute mean for all samples belonging to the same class as the given tuple) คือ เติมค่าข้อมูลที่ขาดหาย เช่น เติมค่ารายได้ของลูกค้าที่ขาดหาย ด้วยค่าเฉลี่ยของลูกค้าที่อยู่ในกลุ่มอาชีพเดียวกัน เป็นต้น
- ใช้ค่าที่เป็นไปได้มากที่สุด (Use the most propable value to fill in the missing value) เติมแทนค่าข้อมูลที่ขาดหาย
- การแปลงข้อมูล (Data Transformation) การแปลงข้อมูลที่พบบ่อยในการทำเหมืองข้อมูลคือ การทำนอร์มอลไลซ์ โดยแปลงค่าข้อมูลให้อยู่ในช่วงสั้นๆ ที่อัลกอริทึมการทำเหมืองข้อมูลสามารถนำไปใช้ประมวลผลได้
- การผสานข้อมูล (Data Integration) เป็นการรวบรวมข้อมูลจากแหล่งที่เก็บต่าง ๆ มาไว้ที่เดียวกัน การผสานข้อมูลจากแหล่งต่าง ๆ เพื่อช่วย
- ลดหรือหลีกเลี่ยงความซ้ำซ้อนของข้อมูล ซึ่งจะนำไปสู่ปัญหาความไม่สอดคล้องกันของข้อมูล
- เพิ่มความเร็วและคุณภาพในการทำเหมืองข้อมูล
- การผสานโครงสร้างการเก็บข้อมูล (Schema Integration) โดยใช้ข้อมูลเมตาช่วยในการบ่งชี้หน่วยในแหล่งเก็บข้อมูลต่าง ๆ
- ตรวจหาและแก้ไขค่าข้อมูลที่ขัดแย้ง เช่น ค่าคุณลักษณะเดียวกัน แต่ใช้หน่วยวัดต่างๆ กัน ในแต่ละแหล่งข้อมูล
- การกำจัดค่าข้อมูลซ้ำซ้อน
- การลดรูปข้อมูล (Data Reduction) คลังข้อมูลเก็บข้อมูลจำนวนมาก ขนาดเป็น เทระไบต์ (TB) ดังนั้นการวิเคราะห์ หรือกำรทำหมืองข้อมูลที่ซับซ้อน ต้องใช้เวลานานในกำรประมวลผลข้อมูล ปริมาณมาก ๆ และการลดรูปข้อมูลเป็นการกระทำเพื่อแทนข้อมูล ด้วยรูปแบบกะทัดรัด กินเนื้อที่น้อยกว่า แต่สามารถนำไปใช้วิเคราะห์ แล้วเกิดผลลัพธ์ที่เท่ากันหรือเทียบเท่ากัน กับการวิเคราะห์จากข้อมูลทั้งหมด
สรุปได้ว่า การเตรียมข้อมูลเป็นขั้นตอนแรกก่อนในการทำเหมือนข้อมูล สาเหตุการเตรียมข้อมูลเพราะ ข้อมูลไม่มีความสมบูรณ์ มีข้อมูลรบกวน และข้อมูลไม่มีความสอดคล้อยกัน ส่วนเทคนิคการจัดเตรียมข้อมูลก็มี 4 ส่วน คือ 1) การทำความสะอาดข้อมูล คือ การทำข้อมูลให้เรียบร้อยมากขึ้น 2) การแปลงค่าข้อมูล คือการแปลงค่าข้อมูลไปเป็นอีกค่าหนึ่ง โดยใช้การทำนอร์มอลไลซ (Normalization) 3) การผสานข้อมูล คือ รวบรวมข้อมูลเอาเป็นชุดเดียวกัน และสุดท้าย 4) การลดรูปข้อมูล คือปรับชุดข้อมูลให้มันกะทัดรัด กินพื้นที่เนื้อหาน้อย และต้องสามารถนำข้อมูลที่ลดไปใช้การวิเคราะห์และการออกแบบข้อมูลได้