การพัฒนาระบบฐานข้อมูล (Data Platform) เกิดขึ้นเพื่อตอบโจทย์ทางธุรกิจที่มีความซับซ้อน ระบบฐานข้อมูลยุคใหม่จะต้องสามารถรอบรับ ข้อมูลปริมาณมหาสาร จากแหล่งข้อมูลที่หลากหลาย เพื่อแก้ปัญหานี้ Solution อย่าง Data Warehouses และ Data Lakes ได้ถูกสร้างขึ้น
หลายองค์กรอาจจะคุ้นเคยกับการเก็บข้อมูลในช่วงทศวรรษที่ผ่านมาด้วย Traditional Online Transaction Processing (OLTP) databases แต่ทว่า OLTP databases, Data Warehouses, and Data Lakes นั้นมีความแตกต่างกันอย่างมาก และ มักจะใช้แก้ปัญหาที่แตกต่างกันภายในองค์กร
1. ภาพรวม ความแตกต่าง วิธีการใช้งาน Storage Solution แต่ละประเภท
2. วิธีเลือก Storage Solution ที่เหมาะกับแต่ละ Use Case
3. บทบาทหน้าที่ของ Data Warehouse, Data Lake ในโลกของ Modern Data Architecture ว่ามีความแตกต่างจากการเก็บข้อมูลในรูปแบบ OLTP Database ซึ่งเป็นการเก็บข้อมูลแบบเดิมอย่างไร
OLTP Databases คือการเก็บข้อมูลในรูปแบบดั่งเดิมที่องค์กรส่วนมากมักคุ้นเคย หรือ อีกชื่อหนึ่งที่เรียกคือ databases (ฐานข้อมูล) ระบบเหล่านี้ล้วนออกแบบมาให้รองรับการทำธุรกรรมทางธุรกิจ ซึ่งโดยส่วนมากเราใช้ databases ใน เขียน-อ่าน-แก้ไข-ลบ หรือ Create-Read-Update-Delete (CRUD) ซึ่งการทำงานของ databases จะอยู่เบื้องหลังของ Application ต่าง ๆ
เก็บข้อมูลเกี่ยวข้องกับการดำเนินงานทางธุรกิจ (Operational Data)
มีประสิทธิภาพสูงสำหรับข้อมูล Transaction ที่มีจำนวนไม่มาก และ ต้องการค้นหาข้อมูลที่เฉพาะเจาะจง
ประสิทธิภาพของ OLTP Database จะช้าลง เมื่อมีการใช้ข้อมูลที่ระบุ Column (Column-Specific Operations) และ มีการจัดกลุ่มของข้อมูล (Aggregating/Grouping) ยิ่งถ้ามีข้อมูลในปริมาณที่มาก เวลาที่ใช้ในการดึงข้อมูลก็จะใช้มากขึ้นไปด้วย
การลงทะเบียนข้อมูลของคนไข้ในการดูแลสุขภาพ
การลงทะเบียนผู้ใช้งานใหม่ใน website social media
การสั่งสินค้าใน website E-commerce
PostgreSQL
MySQL
Oracle
MongoDB
Redis
Data Lake นั้นเหมาะสำหรับข้อมูลที่มีขนาดใหญ่ ซึ่งโดยทั่วไปมักจะเก็บข้อมูลดิบ (Raw data) ก่อนที่จะทำการวิเคราะห์ ลองจินตนาการถึง Flash Drive ที่สามารถเก็บข้อมูลขนาดใหญ่ได้มาก แต่แทนที่เราจะเก็บไว้ผ่านอุปกรณ์ Flash Drive ข้อมูลเหล่านี้ก็จะอยู่อยู่บน Cloud แทน ซึ่งการเก็บข้อมูลนี้อาจจะไม่เหมือนรูปแบบการเก็บข้อมูลที่ผ่านมาเพราะว่าปริมาณของข้อมูลบน Data Lake นั้นค่อนข้างยืดหยุ่นสามารถเก็บได้หลายรูปแบบทั้ง รูปภาพ เสียง Video ไฟล์ CSV หรือไฟล์ Excel ทุกสิ่งทุกอย่างสามารถเก็บได้ใน Data Lake
สามารถเก็บข้อมูลได้โดยที่ไม่ต้องเปลี่ยนรูปแบบของข้อมูล (Raw, Untransformed State)
สามารถเก็บข้อมูลชนิดใดก็ได้ (เช่น รูปภาพ, วีดีโอ, เสียง, ไฟล์ Excel, CSV และอื่น ๆ)
Use Cases การใช้งานในองค์กรต่าง ๆ
เก็บข้อมูลใดๆก็ได้ที่ไม่ต้องการลบ เพื่อการใช้งานในอนาคต
การอ่านข้อมูลและเขียนข้อมูลดิบอย่างรวดเร็ว
ตัวอย่างเครื่องมือ Data Lake
Google Cloud Storage
Amazon S3
Azure Data Lake
ก่อนที่จะตอบคำถามนี้ เราต้องเข้าใจถึงความแตกต่างระหว่าง Data Lake และ Data Warehouse
การเก็บข้อมูลผ่าน Data Warehouse โดยตรงนั้น ต้องการองค์ความรู้ การวางแผน และการตัดสินใจจาก Data Engineer ที่มีความชำนาญ
หากข้อมูลที่เราต้องการเก็บนั้นไม่ได้เป็นมีแผนจะนำไปใช้ หรือ นำไปประกอบการตัดสินใจทางธุรกิจทันที การเก็บข้อมูลเหล่านั้นผ่าน Data Warehouse อาจไม่ได้จำเป็นสักเท่าไหร่ เนื่องจากจะเป็นการเพิ่มค่าใช้จ่ายที่ไม่จำเป็น เช่น ค่าใช้จ่ายในการปรับปรุงข้อมูล ค่าใช้จ่ายในการสร้าง Data Schema และ ไม่ได้เพิ่มมูลค่าทางธุรกิจ นอกจากนี้การเก็บข้อมูล Data Warehouse ยังจะต้องมี Data Schema ซึ่งอาจจะยังไม่เคยมีมาก่อนในระบบ
แต่ความต้องการทางธุรกิจมักจะเปลี่ยนไปตามระยะเวลา — คำถามทางธุรกิจที่เรามักจะตั้งคำถามในตอนนี้ อาจไม่ใช่คำถามแบบเดียวกับที่ถูกถามในอนาคต การไม่เก็บข้อมูลขององค์กรตั้งแต่เริ่มต้น อาจทำให้เราเสียโอกาส และมีข้อมูลไม่เพียงพอที่จะตอบโจทย์ทางธุรกิจที่เปลี่ยนไป
การที่ค่าใช้จ่ายในการเก็บข้อมูลของ Data Lake ถูกกว่า Data Warehouse มากนั้น จะทำให้เราสามารถเก็บข้อมูลดิบเพื่อที่จะเตรียมใช้ในการวิเคราะห์ในวันข้างหน้าได้โดยไม่ได้ต้องคิดมากนัก
Data Lake จึงตอบโจทย์ในการเก็บข้อมูล “เผื่อ” ว่าเราจะต้องใช้มันในอนาคตได้ดี
เรามาสรุปกันว่า ความแตกต่างในการเก็บข้อมูลในแต่ละรูปแบบนั้นเป็นอย่างไร
OLTP Database | Data Warehouse | Data Lake | |
---|---|---|---|
Data Structure | ข้อมูลแบบมีโครงสร้าง | ข้อมูลแบบมีโครงสร้าง | ข้อมูลที่ไม่มีโครงสร้าง กึ่งโครงสร้าง และ มีโครงสร้าง |
ตัวอย่าง Use Case | การประมวลผลธุรกรรมในธุรกิจ | Data Science และ การวิเคราะห์ข้อมูล | Data Science และ การวิเคราะห์ข้อมูล |
ผู้ใช้งาน | Business Users/ลูกค้า | Data Scientists/Data Analysts/Business Analysts | Data Scientists |
ข้อดี | สามารถประมวลผลข้อมูลทีละรายการได้อย่างรวดเร็ว | มีประสิทธิภาพสูงสำหรับการดำเนินการค้นหาข้อมูล และ วิเคราะห์ข้อมูล แบบมีโครงสร้างที่มีจำนวนมาก ( Structured Data) | สามารถเก็บข้อมูลได้หลากหลาย โดยที่มีค่าใช้จ่ายที่คุ้มค่า |
Database และ Data Warehouse สามารถเก็บได้เฉพาะ Structured Data เท่านั้น ส่วน Data Lake สามารถเก็บข้อมูลได้ทุกชนิด ไม่ว่าจะอยู่ในรูปแบบ ข้อมูลที่ไม่มีโครงสร้าง กึ่งโครงสร้าง หรือ มีโครงสร้าง
OLTP Databases จะนิยมใช้ในการประมวลผลธุรกรรม ส่วน Data Lakes และ Data Warehouses จะเหมาะสำหรับการทำ Data Science และ การวิเคราะห์ข้อมูล
ใช้งานฐานข้อมูลนั้นส่วนมากจะเป็นผู้ใช้งานฝั่งธุรกิจ และ ลูกค้า ซึ่งส่วนมากจะอยู่ในระบบการดำเนินการต่าง ๆ ขององค์กร เช่น Enterprise Resource Planning (ERP) software สำหรับผู้ใช้งานทั่วไป และ social media application สำหรับลูกค้า
ในการเก็บข้อมูลทั้ง 3 รูปแบบนั้นต่างก็มีข้อดีที่แตกต่างกัน ตามรูปแบบการใช้งาน
ข้อดีของ Traditional OLTP database คือ เหมาะสำหรับการประมวลผลข้อมูลทีละรายการ ซึ่งสิ่งนี้เป็นวิธีการเก็บข้อมูลในอุดมคติของระบบการดำเนินการ
Data Warehouse เหมาะสำหรับการค้นหาคำถามทางธุรกิจ และ สามารถใช้วิเคราะห์ข้อมูลที่มีปริมาณขนาดใหญ่ได้
Data Lake นั้นสามารถเก็บข้อมูลได้หลากหลายชนิด เพราะฉะนั้น Data lake เหมาะสำหรับการเก็บข้อมูลทุกประเภท แต่อาจจะไม่ได้คำนึงว่าจะต้องใช้ทันที หรือ อาจจะยังไม่รู้ว่าจะใช้ข้อมูลนี้เมื่อไหร่
เมื่อเราเห็นความแตกต่างของ ฐานข้อมูล Data Warehouse และ Data Lake แล้ว บางทีอาจมีมุมมองที่ทำให้สงสัยว่าทำไม เราต้องใช้ Data Warehouse และ Data Lake ในการวิเคราะห์ข้อมูล เพื่อให้เห็นภาพที่ชัดเจนมากขึ้น จึงขออนุญาตยกคำนิยามจากคุณ Asha Saxena ผู้อำนวยการบริษัท Future Technologies, Inc ซึ่งเป็นบริษัทให้คำปรึกษาด้านการวิเคราะห์ข้อมูล Big Data ผู้ที่ได้ให้นิยายถึงความแตกต่างไว้ว่า
ให้คุณลองจินตนาการว่า Data Warehouse เหมือนห้างสรรพสินค้า ที่มีร้านค้าตั้งอยู่เป็นมีโครงสร้าง รูปแบบแผนชัดเจน คล้ายกับ Data ใน Data Warehouse ที่ถูกเก็บอย่างมีแบบแผน และ Software ต่างๆสามารถนำข้อมูลไปใช้ได้ทันที ส่วน Data Lake ซึ่งเหมือนกับตลาดนัด อาจไม่ได้มีการจัดระเบียบของร้านค้า เมื่อเราเดินดูอาจไม่รู้ว่าพื้นที่ของแต่ละร้านแบ่งกันอย่างไร สิ้นสุดตรงไหน แตกต่างจาก Data Warehouse ที่มีระเบียบแบบแผน เพราะว่า Data Lake สามารถเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้าง เช่น เสียง ภาพ และ วีดีโอ
เมื่อเรามีความรู้ความเข้าใจว่าการเก็บข้อมูลในแต่ละรูปแบบต่างกันอย่างไร เราจะสามารถเลือก Cloud Computing Solution ที่เหมาะกับองค์กรของเราได้ แต่ละองค์กรมักจะมีความแตกต่างในความต้องการด้านข้อมูลที่ไม่เหมือนกัน การทำ Cloud Migration นั้น จึงเหมือนเหมือนการตัดชุดสูทที่จะต้องตัดให้เหมาะกับแต่ละคน
ทีมงาน Thinking Machines มีประสบการณ์การทำงานกับบริษัทจากหลากหลายอุตสาหกรรม และ มีประสบการณ์ในการแก้ปัญหาต่าง ๆ ที่เกี่ยวข้องข้อมูลที่แตกต่างกันในแต่ละบริษัท เราสามารถแนะนำคุณได้ว่า จากสิ่งที่คุณมีอยู่นั้น สามารถทำ Cloud Migration ได้อย่างไร ขอให้เราได้เป็นคนจัดการเรื่องข้อมูล เพื่อที่คุณก็จะสามารถโฟกัสได้ว่าคุณจะสามารถดำเนินการทางธุรกิจต่อได้อย่างไร หากต้องการคำปรึกษาสำหรับการเริ่มต้นการทำงานด้านข้อมูลภายในองค์กร สามารถติดต่อเพิ่มเติมได้ที่เว็บไซต์ https://thinkingmachin.es/ หรือ อีเมล์ [email protected]
ในวันที่วันที่ 4 ก.พ. ถึง 11 มี.ค. 2565 Thinking Machines และ TechSauce ได้จัด Workshop ในหัวข้อ AIMpower ที่จะช่วยให้สามารถเห็นภาพรวมของการใช้ข้อมูลในองค์กรให้ชัดเจนมากขึ้น สามารถริ่เริมการวางแผนการใช้ข้อมูลในองค์กร การวางโครงสร้างทีม หากสนใจสามารถสอบถามรายละเอียดเพิ่มเติมได้ที่ https://thinkingmachin.es/aimpower-thailand/
นอกเหนือจาก Workshop ที่กำลังเกิดขึ้นแล้ว Thinking Machines Thailand กำลังเปิดบ้านต้อนรับเพื่อนร่วมทีมใหม่ ๆ ที่จะมาสร้าง Solution ที่มี Impact ไปด้วยกัน รายละเอียดเพิ่มเติมเกี่ยวกับตำแหน่งงานที่เปิดรับ และ การสมัครงานสามารถเข้าไปได้ที่ https://thinkingmachines.freshteam.com/jobs
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด