แนวทางการจัดเก็บข้อมูลในรูปแบบ Machine Readable สำหรับ Open Data
17 ตุลาคม 2566การจัดเก็บข้อมูลในรูปแบบ Machine Readable คืออะไร
"Machine Readable" หรือ อ่านได้ด้วยเครื่อง คือ ข้อมูลที่มีโครงสร้าง สามารถอ่านได้ด้วยเครื่องคอมพิวเตอร์ เน้นการใช้ประโยชน์จากข้อมูลได้จริง นำไปวิเคราะห์และประมวลผลต่อได้ง่าย
ประโยชน์ของการจัดเก็บข้อมูลในรูปแบบ Machine Readable
1. ความง่ายต่อนำข้อมูลไปใช้ในการวิเคราะห์ โดยสามารถลดระยะเวลาในขั้นตอนการทำความสะอาดข้อมูล หรือการแปลงข้อมูลก่อนจะไปประมวลผลวิเคราะห์ข้อมูลต่อไปได้โดยง่าย เหมาะสำหรับการเผยแพร่เป็นข้อมูลเปิด (Open Data) เพื่อให้การเผยแพร่ข้อมูลเป็นไปอย่างมีประสิทธิภาพและสามารถนำข้อมูลไปใช้งานได้จริง
2. ชุดข้อมูลมีความเป็นมาตรฐาน สามารถอัปเดตข้อมูลให้เป็นปัจจุบันได้ง่าย เช่น เมื่อต้องการเพิ่มข้อมูลในปีถัดไปสามารถทำได้ง่าย เนื่องจากมีโครงสร้างที่เป็นมาตรฐานเดียวกันของทุกปี ไม่สร้างความสับสนให้ทั้งผู้สร้างข้อมูลและผู้ที่นำข้อมูลไปใช้งาน
แนวทางการจัดเก็บข้อมูลในรูปแบบ Machine Readable สำหรับ Open Data
1. ข้อมูลต้องมีโครงสร้างในรูปแบบตาราง (จัดอยู่ในรูปแบบแถวและคอลัมน์)
2. ข้อมูลแต่ละรายการต้องจัดเก็บอยู่ในช่องเดียวกันเท่านั้น (ไม่มีการ merge cells)
3. การตั้งชื่อคอลัมน์ควรตั้งชื่อเป็นภาษาอังกฤษ และต้องไม่ขึ้นต้นด้วยอักขระพิเศษ (#,@) และไม่มีการเว้นวรรค
4. ข้อมูลควรจัดโครงสร้างในรูปแบบข้อมูลรายการ (Transaction Data) ไม่ควรจัดในลักษณะ Crosstab Table หรือ Pivot Table
5. รูปแบบข้อมูลจะต้องมีความคงเส้นคงวา (Consistency)
- ชนิดตัวแปร เช่น ข้อมูลที่เป็นตัวเลขจะต้องเป็นตัวเลขทั้งคอลัมน์ หากมีค่าว่างให้ปล่อยว่าง ห้ามใส่ "-" หรือสัญลักษณ์อื่น ๆ ที่ไม่ใช่ตัวเลข
- รูปแบบข้อมูลที่จัดเก็บจะต้องสอดคล้อง หรือใช้หลักเกณฑ์เดียวกัน เช่น ข้อมูลวัน/เดือน/ปี จะต้องกำหนดรูปแบบวัน เดือน ปีที่สอดคล้องกัน, ข้อมูลที่มีหน่วยวัดจะต้องเก็บเป็นหน่วยเดียวกัน
6. ข้อมูลจัดเก็บในรูปแบบรหัสที่คอมพิวเตอร์เข้าใจง่าย เช่น การจัดเก็บข้อมูลเพศ ด้วยรหัส 0 และ 1 แทนคำว่า Male และ Female
7. ชุดข้อมูลต้องกำหนดประเภทการเข้ารหัส (Encoding) ที่สอดคล้องกับภาษาของข้อมูลที่จัดเก็บ เช่น ข้อมูลเป็นภาษาไทย ต้องเข้ารหัสเป็นแบบ UTF-8 เท่านั้น
8. ชุดข้อมูลควรบันทึกอยู่ในรูปแบบมาตรฐานเปิดที่สามารถใช้ได้หลายแพลตฟอร์ม โดยต้องไม่ถือครองกรรมสิทธิ์หลังจากนำข้อมูลเปิดไปใช้ประโยชน์ (Non-Proprietary)
9. ชุดข้อมูลต้องบันทึกอยู่ในรูปแบบไฟล์ที่สามารถประมวลผลด้วยเครื่อง เช่น CSV, RDF, XML, JSON
ที่มา data.go.th