แนวทางการจัดเก็บข้อมูลในรูปแบบ Machine Readable สำหรับ Open Data

17 ตุลาคม 2566

การจัดเก็บข้อมูลในรูปแบบ Machine Readable คืออะไร

"Machine Readable" หรือ อ่านได้ด้วยเครื่อง คือ ข้อมูลที่มีโครงสร้าง สามารถอ่านได้ด้วยเครื่องคอมพิวเตอร์ เน้นการใช้ประโยชน์จากข้อมูลได้จริง นำไปวิเคราะห์และประมวลผลต่อได้ง่าย

ประโยชน์ของการจัดเก็บข้อมูลในรูปแบบ Machine Readable

1. ความง่ายต่อนำข้อมูลไปใช้ในการวิเคราะห์ โดยสามารถลดระยะเวลาในขั้นตอนการทำความสะอาดข้อมูล หรือการแปลงข้อมูลก่อนจะไปประมวลผลวิเคราะห์ข้อมูลต่อไปได้โดยง่าย เหมาะสำหรับการเผยแพร่เป็นข้อมูลเปิด (Open Data) เพื่อให้การเผยแพร่ข้อมูลเป็นไปอย่างมีประสิทธิภาพและสามารถนำข้อมูลไปใช้งานได้จริง

2. ชุดข้อมูลมีความเป็นมาตรฐาน สามารถอัปเดตข้อมูลให้เป็นปัจจุบันได้ง่าย เช่น เมื่อต้องการเพิ่มข้อมูลในปีถัดไปสามารถทำได้ง่าย เนื่องจากมีโครงสร้างที่เป็นมาตรฐานเดียวกันของทุกปี ไม่สร้างความสับสนให้ทั้งผู้สร้างข้อมูลและผู้ที่นำข้อมูลไปใช้งาน

แนวทางการจัดเก็บข้อมูลในรูปแบบ Machine Readable สำหรับ Open Data

1. ข้อมูลต้องมีโครงสร้างในรูปแบบตาราง (จัดอยู่ในรูปแบบแถวและคอลัมน์)

2. ข้อมูลแต่ละรายการต้องจัดเก็บอยู่ในช่องเดียวกันเท่านั้น (ไม่มีการ merge cells)

3. การตั้งชื่อคอลัมน์ควรตั้งชื่อเป็นภาษาอังกฤษ และต้องไม่ขึ้นต้นด้วยอักขระพิเศษ (#,@) และไม่มีการเว้นวรรค

4. ข้อมูลควรจัดโครงสร้างในรูปแบบข้อมูลรายการ (Transaction Data) ไม่ควรจัดในลักษณะ Crosstab Table หรือ Pivot Table

5. รูปแบบข้อมูลจะต้องมีความคงเส้นคงวา (Consistency)

    - ชนิดตัวแปร เช่น ข้อมูลที่เป็นตัวเลขจะต้องเป็นตัวเลขทั้งคอลัมน์ หากมีค่าว่างให้ปล่อยว่าง ห้ามใส่ "-" หรือสัญลักษณ์อื่น ๆ ที่ไม่ใช่ตัวเลข 

    - รูปแบบข้อมูลที่จัดเก็บจะต้องสอดคล้อง หรือใช้หลักเกณฑ์เดียวกัน เช่น ข้อมูลวัน/เดือน/ปี จะต้องกำหนดรูปแบบวัน เดือน ปีที่สอดคล้องกัน, ข้อมูลที่มีหน่วยวัดจะต้องเก็บเป็นหน่วยเดียวกัน 

6. ข้อมูลจัดเก็บในรูปแบบรหัสที่คอมพิวเตอร์เข้าใจง่าย เช่น การจัดเก็บข้อมูลเพศ ด้วยรหัส 0 และ 1 แทนคำว่า Male และ Female

7. ชุดข้อมูลต้องกำหนดประเภทการเข้ารหัส (Encoding) ที่สอดคล้องกับภาษาของข้อมูลที่จัดเก็บ เช่น ข้อมูลเป็นภาษาไทย ต้องเข้ารหัสเป็นแบบ UTF-8 เท่านั้น

8. ชุดข้อมูลควรบันทึกอยู่ในรูปแบบมาตรฐานเปิดที่สามารถใช้ได้หลายแพลตฟอร์ม โดยต้องไม่ถือครองกรรมสิทธิ์หลังจากนำข้อมูลเปิดไปใช้ประโยชน์ (Non-Proprietary)

9. ชุดข้อมูลต้องบันทึกอยู่ในรูปแบบไฟล์ที่สามารถประมวลผลด้วยเครื่อง เช่น CSV, RDF, XML, JSON 

 

ที่มา data.go.th