ในการพัฒนา Machine Learning (การเรียนรู้ของเครื่องจักร) หรือ Deep Learning (อัลกอริทึมที่ถูกสร้างขึ้นมาเพื่อการเรียนรู้ของเครื่อง) จำเป็นต้องมี dataset เพื่อให้ Model ของ Machine Learning สามารถเรียนรู้ได้จาก Dataset หรือชุดข้อมูลทีเราได้ Train แต่ในการแบ่ง Dataset จะไม่ได้มีแค่ Train อย่างเดียว ในการพัฒนา Model ของ Machine Learning ซึ่งในบทความนี้จะมาเสนอวิธีการแบ่ง Dataset ว่าแบ่งกี่ส่วนและแต่ละส่วนทำหน้าที่อะไรบ้าง
วิธีการแบ่ง Dataset เพื่อพัฒนา Machine Learning
- การแบ่ง Dataset จะถูกแบ่ง ออกเป็น 2 ส่วนใหญ่ๆก่อน คือ train กับ test ในขั้นตอนนี้จะต้องแบ่งโดยแยกเป็น folder เอง
รูปประกอบการแยก train และ test - หลังจากนั้นจะแบ่ง train set อีกเป็น train กับ validation set เพื่อใช้ส่วนนี้ในการ train model
รูปประกอบการแยก train และ validation
train set มีหน้าอะไร?
ชุดข้อมูลที่ใช้สำหรับการเรียนรู้ (โดย model) กล่าวคือ เพื่อให้เหมาะสมกับพารามิเตอร์กับ model ของ machine learning
validation set มีหน้าที่อะไร?
ชุดข้อมูลที่ใช้สำหรับประเมิน model ระหว่างการ train model เพื่อปรับให้ model ทำนายได้ดีขึ้น
test set มีหน้าที่อะไร?
ชุดข้อมูลที่ใช้สำหรับทดสอบ model ของ machine learning ที่ใช้ทดสอบก่อนเอาไปใช้งานจริง
สรุป
dataset ในการพัฒนา Machine Learning (การเรียนรู้ของเครื่องจักร) หรือ Deep Learning (อัลกอริทึมที่ถูกสร้างขึ้นมาเพื่อการเรียนรู้ของเครื่อง) จะถูกแบ่งออกเป็นทั้งหมด 3 ส่วน คือ train set, validation set, test set ซึ่งแต่ละชุดข้อมูลก็จะมีหน้าที่ไม่เหมือนกัน
อ้างอิง
"train , validation, test" .[ออนไลน์] เข้าถึงได้ที่ https://towardsdatascience.com/how-to-split-data-into-three-sets-train-validation-and-test-and-why-e50d22d3e54c
"how to split dataset" .[ออนไลน์] เข้าถึงได้ที่ https://kongruksiamza.medium.com/%E0%B8%AA%E0%B8%A3%E0%B8%B8%E0%B8%9B-machine-learning-ep-2-%E0%B8%A3%E0%B8%B9%E0%B9%89%E0%B8%88%E0%B8%B1%E0%B8%81%E0%B8%81%E0%B8%B1%E0%B8%9A%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%8A%E0%B8%B8%E0%B8%94%E0%B9%80%E0%B8%A3%E0%B8%B5%E0%B8%A2%E0%B8%99%E0%B8%A3%E0%B8%B9%E0%B9%89%E0%B9%81%E0%B8%A5%E0%B8%B0%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%8A%E0%B8%B8%E0%B8%94%E0%B8%97%E0%B8%94%E0%B8%AA%E0%B8%AD%E0%B8%9A-119a16a901c8
"train test" .[ออนไลน์] เข้าถึงได้ที่ https://blog.roboflow.com/train-test-split/