เทคนิคการออกแบบคลังข้อมูล (Data Warehouse)

เทคนิค/วิธีการ (How to) ออกแบบคลังข้อมูล (Data Warehouse)

          1 เทคนิคในการสร้างคลังข้อมูล

2.1.1 การเคลื่อนที่ของข้อมูลในคลังข้อมูลข้อมูลที่จัดเก็บภายในคลังข้อมูลมีการเคลื่อนที่ของข้อมูล (information flow) 5 ประเภท ดังนี้

1) Inflow คือการนำข้อมูลจากฐานข้อมูลอื่นเข้าสู่คลังข้อมูลทั้งฐานข้อมูลภายในและภายนอกองค์กร โดยในขั้นนี้อาจมีการเปลี่ยนแปลงโรงสร้างข้อมูล การทำ denormalize การลบหรือการเพิ่มฟิลด์เพื่อให้ข้อมูลทั้งหมดอยู่ในเนื้อหาที่สนใจเดียวกัน ในขั้นตอนนี้อาจใช้เครื่องมือที่เรียกว่า data warehouse tool

2) Upflow เมื่อออกแบบข้อมูลที่ต้องการอยู่ในคลังข้อมูลแล้ว ในบางครั้งอาจต้องมีการเพิ่มคุณค่าให้กับข้อมูลด้วยเพื่อให้ข้อมูลอยู่ในรูปแบบที่เป็นประโยชน์มากที่สุดต่อการนำเครื่องมือมาใช้ ซึ่งได้แก่การจัดกลุ่มข้อมูลหาค่าทางสถิติที่ซับซ้อน จัดข้อมูลให้อยู่ในรูปแบบหรือเทมเพลตมาตราฐาน

3) Downflow เป็นขั้นตอนของการปรับปรุงเปลี่ยนแปลงข้อมูลเก่า และไม่อยู่ในเนื้อหาที่องค์กรสนใจออกไปจากคลังข้อมูลขององค์กร

4) Outflow เป็นขั้นตอนที่ผู้ใช้เรียกใช้ข้อมูลในคลังข้อมูลผ่านเครื่องมือต่างๆ โดยการเรียกใช้อาจมีเพียงขอเรียกเป็นครั้งคราวเป็นประจำทุกวัน/เดือน หรือแม้กระทั่งต้องการแบบทันที

5) Metaflow ข้อมูลที่จัดเก็บในคลังข้อมูลจะถูกทำข้อมูลไว้อีกชุดหนึ่ง เป็นแหล่งที่มาของข้อมูลนั้น หรือแม้กระทั่งที่อยู่ของข้อมูลนั้นในคลังข้อมูลและข้อมูลอื่นที่เกี่ยวข้อง

2.1.2 วิธีการออกแบบฐานข้อมูลสำหรับคลังข้อมูลวิธีการนี้ถูกเสนอโดย Kimball ในปี 1996 เรียกว่าระเบียบวิธี 9 ชั้น หรือ Nine-Step Methodology โดยวิธีการนี้เริ่มจากการออกแบบจากส่วนย่อยที่แสดงถึงแต่ละระบบงานขององค์กร หรือเรียกอีกอย่างหนึ่งว่าดาต้ามาร์ท (data mart) โดยเมื่อออกแบบแต่ละส่วนสำเร็จแล้ว จึงนำมารวมกันเป็นคลังข้อมูล ขององค์กรในขั้นสุดท้าย

          2 การแบ่งข้อมูลในคลังข้อมูล (Data Warehouse) ด้านการประกันคุณภาพ

1) แบ่งตามลักษณะข้อมูล

2) แบ่งตามช่วงระยะเวลา

3) แบ่งตามระดับ

4) แบ่งตามข้อมูลพื้นฐาน

5) แบ่งตามตัวชี้วัด

3. วิธีการเก็บข้อมูล และตรวจสอบความถูกต้องของข้อมูล

          3.1 วิธีการเก็บข้อมูลด้านการประกันคุณภาพ
                
1) จัดเก็บในโฟลเดอร์ข้อมูลด้านประกันคุณภาพ ลงในเครื่องคอมพิวเตอร์ และจัดเก็บลงใน Google Drive

   2) จัดส่งข้อมูลผ่านข่องทางเผยแพร่ที่กำหนด เพื่อแจ้งผู้ที่เกี่ยวข้อง รับทราบ

          3.2 ตรวจสอบความถูกต้องของข้อมูลด้านการประกันคุณภาพ

 1) ฝ่ายประกันคุณภาพของคณะ/วิทยาลัยตรวจสอบข้อมูลเบื้องต้น
  2) นำข้อมูลจากหน่วยงานเจ้าภาพ ส่งให้ฝ่ายงานผู้รับผิดชอบแต่ละตัวบ่งชี้ของคณะ/วิทยาลัย ตรวจสอบข้อมูลและยืนยันผลให้ถูกต้อง
3) กองนโยบายและแผน ดำเนินการประสานข้อมูลระหว่างหน่วยงานเจ้าภาพกับคณะ/วิทยาลัย เพื่อตรวจสอบข้อมูลและยืนยันความถูกต้อง

          3.3 การนำข้อมูลเข้าสู่ระบบคลังข้อมูล

          การแปลงข้อมูลเข้าสู่ดาต้ามาร์ทเมื่อเราออกแบบฐานข้อมูลสำหรับแต่ละดาต้ามาร์ทเสร็จแล้ว ขั้นตอนต่อไปที่สำคัญยิ่งก็คือการนำข้อมูลจากแหล่งข้อมูลไปแปลงให้อยู่ในแพลตฟอร์มของฐานข้อมูลที่ได้ออกแบบไว้ นั่นก็คือการแปลงข้อมูล หรือ Extraction Transformation and Loading (ETL) นั่นเอง โดยที่คุณภาพของการแปลงข้อมูลเป็นสิ่งสำคัญมากสำหรับการสร้างคลังข้อมูล จะแตกต่างกันไปตามคลังข้อมูลที่แต่ละองค์กรต้องการ โดยที่การแปลงข้อมูลหมายรวมตั้งแต่การวิเคราะห์แหล่งข้อมูล กำหนดการส่งข้อมูลรวบรวมหรือสร้างข้อมูลภายนอก วางแผนและสร้างรูทีนของการแปลงข้อมูล และตรวจสอบความถูกต้องของข้อมูลที่ได้สามารถสรุปเป็นขั้นตอนได้ ดังนี้

                   1. วิเคราะห์แหล่งข้อมูล เช่น ปริมาณของข้อมูล จำนวนและชนิดของการเข้าถึงแหล่งข้อมูล แพลตฟอร์มและภาษาโปรแกรมที่ใช้ เป็นต้น
                    2. ย้ายข้อมูลที่ต้องการจากระบบเดิมมาไว้ในบริเวณที่ใช้ปรับแต่งข้อมูล หรือเรียกบริเวณนี้ว่า staging area เพื่อนำมาเลือกเฉพาะส่วนที่ต้องการแปลงข้อมูลและตรวจสอบความถูกต้อง หรือการทำความสะอาดข้อมูล
                   3. กำหนด primary key ของ fact table และ dimension table และกำหนด foreign key ระหว่าง fact table กับ dimension table
                   4. ย้ายข้อมูลที่ทำความสะอาดแล้วจาก staging area ลงสู่เซิร์ฟเวอร์ของดาต้ามาร์ท
                   5. สร้าง metadata ของแต่ละดาต้ามาร์ท โดยเก็บรายละเอียดของข้อมูลการอัปเดตและส่งออกไปไว้ในดาต้ามาร์ท
                   . ตรวจสอบความถูกต้องของข้อมูล ซึ่งจะต้องกระทำตลอดทั้งกระบวนการแปลงข้อมูลจำทำได้ดังนี้

-  ตรวจแก้ข้อมูลในระบบเดิมของแหล่งข้อมูล หรือในรูทีนของการแปลง ซึ่งควรจะเก็บข้อมูลในการตรวจแก้ไว้ใน metadata ของการแปลงข้อมูลด้วย
- ตรวจสอบค่าของข้อมูลให้ถูกต้องในกระบวนการรวบรวมข้อมูล
- ตรวจสอบผลรวมของข้อมูลหลังจากย้ายข้อมูลลงสู่ดาต้ามาร์ทแล้ว