การเตรียมข้อมูลเพื่อแยกหมวดหมู่ชนิดข้อมูล คืออะไร ?

ภาพของคนกำลังจัดเตรียมเครื่อง Server เพื่อรองรับข้อมูล ใช้สำหรับเป็นภาพปกประกอบบทความ การเตรียมข้อมูลเพื่อแยกหมวดหมู่ชนิดข้อมูล คืออะไร ?
การเตรียมข้อมูลเพื่อแยกหมวดหมู่ชนิดข้อมูล คืออะไร ?

การเตรียมข้อมูล (Data Preprocessing) เป็นขั้นตอนแรกก่อนการทำเหมืองข้อมูลที่จะสามารถปรับปรุงคุณภาพโดยรวมของรูปแบบที่จากการทำเหมืองข้อมูล หรือก่อนถึงเวลาที่จะทำเหมืองจริง ข้อมูลก็มีขนาดใหญ่มาก ๆ (Big Data) ในการทำเหมือนข้อมูล จึงต้องมีการจัดเตรียมข้อมูลเอาไว้ และสืบค้นพบความรู้ในฐานข้อมูล เพื่อให้ข้อมูลมีคุณภาพมากยิ่งขึ้น

ทำไมต้องมีการเตรียมข้อมูล?

สาเหตุมาจากข้อมูลในความเป็นจริงคือข้อมูลไม่การจัดเรียมข้อมูลให้เป็นระเบียบ ดังนั้นสามารถแบ่งเป็น 3 ข้อมูล ได้คือ

  • ข้อมูลไม่สมบูรณ์ หรือ Incomplete Data คือ ค่าข้อมูลขาดลักษณะไป ขาดคุณลักษณะที่น่าสนใจไปหรือขาดคำอธิบายของข้อมูลนั้น ๆ
  • ข้อมูลรบกวน หรือ Noisy Data คือ ข้มูลที่มีค่าผิดพลาด (Error) หรือมีค่าผิดปกติ
  • ข้อมูลไม่สอคคล้อง หรือ Inconsistent Data ตามชื่อเลย ก็คือ ข้อมูลชุดเดียวกัน แต่ชื่อต่างกัน หรือใช้ค่าข้อมูลที่แตกต่างกัน

เทคนิคการเตรียมข้อมูล

  1. การทำความสะอาดข้อมูล (Data Cleaning) เนื่องจากข้อมูลจริงอาจไม่สมบูรณ์และมีค่าที่ขาดหายไป ดังนั้นควรปรับปรุงข้อมูลให้มีความเรียบร้อยมากขึ้น

    การจัดการข้อมูลค่าที่ขาดหาย

    • การตัดทิ้งรายการที่มีข้อมูลสูญหาย (Ignore the tuple) เป็นที่นิยมใช้กับการทำเหมือนข้อมูลแบบจำแนบประเภท และในกรณีที่ค่าลักษณะได้ขาดหายไปเป็นจำนวนมาก
    • เติมค่าที่ขาดหายด้วยมือ (Fill in the missing value manually) เป็นวิธีที่ไม่เหมาะสมกับกรณีที่ชุดข้อมูลมีขนาดใหญ่มาก ๆ และมีข้อมุลขาดหายเป็นจำนวนมาก
    • เติมค่าคุณลักษณะของข้อมูลที่ขาดหายทุกค่า (Use a global constant to fill in the missing value) ด้วยเปลี่ยนค่าคงที่เป็นค่าหนึ่ง เช่น ไม่รู้ค่า หรือ Unknown เป็นต้น
    • ใช้ค่าเฉลี่ยของคุณลักษณะ (Use the attribute mean to fill in the missing value) คือ เติมค่าข้อมูลที่ขาดหาย เช่น ถ้าเราทราบว่าผู้ใช้งานมีรายได้เฉลี่ยปีละ 1,150,000 บาท จะใช้ค่านี้แทนค่ารายได้ของผู้ใช้งานที่ขาดหายไป
    • ใช้ค่าเฉลี่ยคุณลักษณะของตัวอย่างที่จัดอยู่ในประเภทเดียวกัน (Use the attribute mean for all samples belonging to the same class as the given tuple) คือ เติมค่าข้อมูลที่ขาดหาย เช่น เติมค่ารายได้ของลูกค้าที่ขาดหาย ด้วยค่าเฉลี่ยของลูกค้าที่อยู่ในกลุ่มอาชีพเดียวกัน เป็นต้น
    • ใช้ค่าที่เป็นไปได้มากที่สุด (Use the most propable value to fill in the missing value) เติมแทนค่าข้อมูลที่ขาดหาย
  2. การแปลงข้อมูล (Data Transformation) การแปลงข้อมูลที่พบบ่อยในการทำเหมืองข้อมูลคือ การทำนอร์มอลไลซ์ โดยแปลงค่าข้อมูลให้อยู่ในช่วงสั้นๆ ที่อัลกอริทึมการทำเหมืองข้อมูลสามารถนำไปใช้ประมวลผลได้
  3. การผสานข้อมูล (Data Integration) เป็นการรวบรวมข้อมูลจากแหล่งที่เก็บต่าง ๆ มาไว้ที่เดียวกัน การผสานข้อมูลจากแหล่งต่าง ๆ เพื่อช่วย

    • ลดหรือหลีกเลี่ยงความซ้ำซ้อนของข้อมูล ซึ่งจะนำไปสู่ปัญหาความไม่สอดคล้องกันของข้อมูล
    • เพิ่มความเร็วและคุณภาพในการทำเหมืองข้อมูล
            สิ่งที่ต้องทำในการผสานข้อมูล
    • การผสานโครงสร้างการเก็บข้อมูล (Schema Integration) โดยใช้ข้อมูลเมตาช่วยในการบ่งชี้หน่วยในแหล่งเก็บข้อมูลต่าง ๆ 
    • ตรวจหาและแก้ไขค่าข้อมูลที่ขัดแย้ง เช่น ค่าคุณลักษณะเดียวกัน แต่ใช้หน่วยวัดต่างๆ กัน ในแต่ละแหล่งข้อมูล
    • การกำจัดค่าข้อมูลซ้ำซ้อน
  4. การลดรูปข้อมูล (Data Reduction) คลังข้อมูลเก็บข้อมูลจำนวนมาก ขนาดเป็น เทระไบต์ (TB) ดังนั้นการวิเคราะห์ หรือกำรทำหมืองข้อมูลที่ซับซ้อน ต้องใช้เวลานานในกำรประมวลผลข้อมูล ปริมาณมาก ๆ และการลดรูปข้อมูลเป็นการกระทำเพื่อแทนข้อมูล ด้วยรูปแบบกะทัดรัด กินเนื้อที่น้อยกว่า แต่สามารถนำไปใช้วิเคราะห์ แล้วเกิดผลลัพธ์ที่เท่ากันหรือเทียบเท่ากัน กับการวิเคราะห์จากข้อมูลทั้งหมด

สรุปได้ว่า การเตรียมข้อมูลเป็นขั้นตอนแรกก่อนในการทำเหมือนข้อมูล สาเหตุการเตรียมข้อมูลเพราะ ข้อมูลไม่มีความสมบูรณ์ มีข้อมูลรบกวน และข้อมูลไม่มีความสอดคล้อยกัน ส่วนเทคนิคการจัดเตรียมข้อมูลก็มี 4 ส่วน คือ 1) การทำความสะอาดข้อมูล คือ การทำข้อมูลให้เรียบร้อยมากขึ้น 2) การแปลงค่าข้อมูล คือการแปลงค่าข้อมูลไปเป็นอีกค่าหนึ่ง โดยใช้การทำนอร์มอลไลซ (Normalization) 3) การผสานข้อมูล คือ รวบรวมข้อมูลเอาเป็นชุดเดียวกัน และสุดท้าย 4) การลดรูปข้อมูล คือปรับชุดข้อมูลให้มันกะทัดรัด กินพื้นที่เนื้อหาน้อย และต้องสามารถนำข้อมูลที่ลดไปใช้การวิเคราะห์และการออกแบบข้อมูลได้


อ้างอิง
Data Processing คืออะไร? รวมเรื่องน่ารู้ที่คุณไม่ควรพลาด ,[ออนไลน์], เข้าถึงได้จาก https://datawow.co.th/blogs/what-is-data-processing
Data Cleaning ,[ออนไลน์], เข้าถึงได้จาก https://riccoprint.com/data-cleaning-service/
การเตรียมข้อมูลเพื่อการวิเคราะห์ข้อความ (Text Preprocessing) ,[ออนไลน์], เข้าถึงได้จาก https://datacubeth.ai/text-preprocessing/
กระทู้ล่าสุดจากเว็บบอร์ด
หัวข้อกระทู้
ตอบ
เปิดดู
ล่าสุด
แนะนำการตั้งค่า Forward Email เฉพาะบางรายการหน่อย
โดย Narisara อ 18 มี.ค. 2025 11:31 am บอร์ด ถาม - ตอบ คอมพิวเตอร์
13
49
อ 18 มี.ค. 2025 4:26 pm โดย Narisara View Topic แนะนำการตั้งค่า Forward Email เฉพาะบางรายการหน่อย
ต้องการสำรองแชทไลน์ ผ่านคอมฟิวเตอร์ แนะนำที
โดย Narisara จ 17 มี.ค. 2025 11:30 am บอร์ด ถาม - ตอบ คอมพิวเตอร์
0
27
จ 17 มี.ค. 2025 11:30 am โดย Narisara View Topic ต้องการสำรองแชทไลน์ ผ่านคอมฟิวเตอร์ แนะนำที
(Close) B - Master ของไบโอนิค เข้าไม่ได้ ขึ้น Internal Server Error
โดย Narisara จ 17 มี.ค. 2025 11:24 am บอร์ด MDERPv2 - Tester
2
9
จ 17 มี.ค. 2025 6:32 pm โดย Narisara View Topic (Close) B - Master ของไบโอนิค เข้าไม่ได้ ขึ้น Internal Server Error
วิธีพัฒนาทักษะการอ่านสำหรับการสอบ IELTS: เริ่มจาก 0 ก็เก่งได้ โดยพี่หนุ่มจาก SkoolELT
โดย rinradap จ 17 มี.ค. 2025 11:14 am บอร์ด พูดคุยเรื่องทั่วไป จับฉ่าย
0
27
จ 17 มี.ค. 2025 11:14 am โดย rinradap View Topic วิธีพัฒนาทักษะการอ่านสำหรับการสอบ IELTS: เริ่มจาก 0 ก็เก่งได้ โดยพี่หนุ่มจาก SkoolELT
R - selenium_thaivi_settrade_bot - bot เก็บข้อมูลบทวิเคราะห์หุ้น
โดย guitar66 ส 15 มี.ค. 2025 7:42 pm บอร์ด ThaiVIBOT - Developer
4
5
อ 18 มี.ค. 2025 8:05 pm โดย guitar66 View Topic R - selenium_thaivi_settrade_bot - bot เก็บข้อมูลบทวิเคราะห์หุ้น
R - selenium_thaivi_set_bot - bot เก็บข้อมูลข่าวหุ้น
โดย guitar66 ส 15 มี.ค. 2025 5:32 pm บอร์ด ThaiVIBOT - Developer
4
5
อ 18 มี.ค. 2025 8:09 pm โดย guitar66 View Topic R - selenium_thaivi_set_bot - bot เก็บข้อมูลข่าวหุ้น
R - selenium_thaivi_bot - bot เก็บข้อมูล
โดย guitar66 ศ 14 มี.ค. 2025 7:17 pm บอร์ด ThaiVIBOT - Developer
3
7
ศ 14 มี.ค. 2025 8:02 pm โดย mindphp View Topic R - selenium_thaivi_bot - bot เก็บข้อมูล
R - โหลดไฟล์ที่มีขนาดใหญ่
โดย MBMoo ศ 14 มี.ค. 2025 4:16 pm บอร์ด MDERPv2 - Tester
3
5
ศ 14 มี.ค. 2025 4:50 pm โดย MBMoo View Topic R - โหลดไฟล์ที่มีขนาดใหญ่