Data Solution 101 : ความแตกต่างระหว่าง Databases, Data Warehouses และ Data Lakes ในโลกธุรกิจ | Techsauce

Data Solution 101 : ความแตกต่างระหว่าง Databases, Data Warehouses และ Data Lakes ในโลกธุรกิจ

การพัฒนาระบบฐานข้อมูล (Data Platform) เกิดขึ้นเพื่อตอบโจทย์ทางธุรกิจที่มีความซับซ้อน ระบบฐานข้อมูลยุคใหม่จะต้องสามารถรอบรับ ข้อมูลปริมาณมหาสาร จากแหล่งข้อมูลที่หลากหลาย  เพื่อแก้ปัญหานี้ Solution อย่าง Data Warehouses และ Data Lakes ได้ถูกสร้างขึ้น

เพราะอะไรองค์กรส่วนมากจำเป็นต้องมี Data Lake และ Data Warehouse 

หลายองค์กรอาจจะคุ้นเคยกับการเก็บข้อมูลในช่วงทศวรรษที่ผ่านมาด้วย Traditional Online Transaction Processing (OLTP) databases แต่ทว่า OLTP databases, Data Warehouses, and Data Lakes นั้นมีความแตกต่างกันอย่างมาก และ มักจะใช้แก้ปัญหาที่แตกต่างกันภายในองค์กร

ในบทความนี้ เราจะมาทำความเข้าใจถึง

1. ภาพรวม ความแตกต่าง วิธีการใช้งาน Storage Solution แต่ละประเภท

2. วิธีเลือก Storage Solution ที่เหมาะกับแต่ละ Use Case

3. บทบาทหน้าที่ของ Data Warehouse, Data Lake ในโลกของ  Modern Data Architecture ว่ามีความแตกต่างจากการเก็บข้อมูลในรูปแบบ OLTP Database ซึ่งเป็นการเก็บข้อมูลแบบเดิมอย่างไร

OLTP Databases: การเก็บข้อมูลสำหรับการปฎิบัติการ

OLTP Databases คือการเก็บข้อมูลในรูปแบบดั่งเดิมที่องค์กรส่วนมากมักคุ้นเคย หรือ อีกชื่อหนึ่งที่เรียกคือ databases (ฐานข้อมูล) ระบบเหล่านี้ล้วนออกแบบมาให้รองรับการทำธุรกรรมทางธุรกิจ ซึ่งโดยส่วนมากเราใช้ databases ใน เขียน-อ่าน-แก้ไข-ลบ หรือ Create-Read-Update-Delete (CRUD)  ซึ่งการทำงานของ databases จะอยู่เบื้องหลังของ Application ต่าง ๆ 

คุณสมบัติของ OLTP Database

  • เก็บข้อมูลเกี่ยวข้องกับการดำเนินงานทางธุรกิจ (Operational Data)

  • มีประสิทธิภาพสูงสำหรับข้อมูล Transaction ที่มีจำนวนไม่มาก และ ต้องการค้นหาข้อมูลที่เฉพาะเจาะจง

  • ประสิทธิภาพของ OLTP Database จะช้าลง เมื่อมีการใช้ข้อมูลที่ระบุ Column (Column-Specific Operations) และ มีการจัดกลุ่มของข้อมูล (Aggregating/Grouping) ยิ่งถ้ามีข้อมูลในปริมาณที่มาก เวลาที่ใช้ในการดึงข้อมูลก็จะใช้มากขึ้นไปด้วย

Use Cases การใช้งานในองค์กรต่าง ๆ

  • การลงทะเบียนข้อมูลของคนไข้ในการดูแลสุขภาพ

  • การลงทะเบียนผู้ใช้งานใหม่ใน website social media

  • การสั่งสินค้าใน website E-commerce

ตัวอย่างของเครื่องมือ OLTP Database

  • PostgreSQL

  • MySQL

  • Oracle

  • MongoDB

  • Redis

Data Lake: รูปแบบการเก็บข้อมูลที่เหมาะสมสำหรับข้อมูลที่ไม่มีโครงสร้าง กึ่งโครงสร้าง และ มีโครงสร้าง (Data Unstructured, Semi-structured, Data Structured)

Data Lake นั้นเหมาะสำหรับข้อมูลที่มีขนาดใหญ่ ซึ่งโดยทั่วไปมักจะเก็บข้อมูลดิบ (Raw data) ก่อนที่จะทำการวิเคราะห์ ลองจินตนาการถึง Flash Drive ที่สามารถเก็บข้อมูลขนาดใหญ่ได้มาก แต่แทนที่เราจะเก็บไว้ผ่านอุปกรณ์ Flash Drive ข้อมูลเหล่านี้ก็จะอยู่อยู่บน Cloud แทน ซึ่งการเก็บข้อมูลนี้อาจจะไม่เหมือนรูปแบบการเก็บข้อมูลที่ผ่านมาเพราะว่าปริมาณของข้อมูลบน Data Lake นั้นค่อนข้างยืดหยุ่นสามารถเก็บได้หลายรูปแบบทั้ง รูปภาพ เสียง Video ไฟล์ CSV หรือไฟล์ Excel ทุกสิ่งทุกอย่างสามารถเก็บได้ใน Data Lake

คุณสมบัติ ของ Data Lake

  • สามารถเก็บข้อมูลได้โดยที่ไม่ต้องเปลี่ยนรูปแบบของข้อมูล (Raw, Untransformed State) 

  • สามารถเก็บข้อมูลชนิดใดก็ได้ (เช่น รูปภาพ, วีดีโอ, เสียง, ไฟล์ Excel, CSV และอื่น ๆ)

Use Cases การใช้งานในองค์กรต่าง ๆ

  • เก็บข้อมูลใดๆก็ได้ที่ไม่ต้องการลบ เพื่อการใช้งานในอนาคต

  • การอ่านข้อมูลและเขียนข้อมูลดิบอย่างรวดเร็ว 

 ตัวอย่างเครื่องมือ Data Lake

  • Google Cloud Storage

  • Amazon S3

  • Azure Data Lake

องค์กรของเราจำเป็นต้องมี Data Lake หรือไม่ ?

ก่อนที่จะตอบคำถามนี้ เราต้องเข้าใจถึงความแตกต่างระหว่าง Data Lake และ Data Warehouse

การเก็บข้อมูลผ่าน Data Warehouse โดยตรงนั้น ต้องการองค์ความรู้ การวางแผน และการตัดสินใจจาก Data  Engineer ที่มีความชำนาญ

หากข้อมูลที่เราต้องการเก็บนั้นไม่ได้เป็นมีแผนจะนำไปใช้ หรือ นำไปประกอบการตัดสินใจทางธุรกิจทันที การเก็บข้อมูลเหล่านั้นผ่าน Data Warehouse อาจไม่ได้จำเป็นสักเท่าไหร่  เนื่องจากจะเป็นการเพิ่มค่าใช้จ่ายที่ไม่จำเป็น เช่น ค่าใช้จ่ายในการปรับปรุงข้อมูล ค่าใช้จ่ายในการสร้าง Data Schema และ ไม่ได้เพิ่มมูลค่าทางธุรกิจ นอกจากนี้การเก็บข้อมูล Data Warehouse ยังจะต้องมี Data Schema ซึ่งอาจจะยังไม่เคยมีมาก่อนในระบบ

แต่ความต้องการทางธุรกิจมักจะเปลี่ยนไปตามระยะเวลา — คำถามทางธุรกิจที่เรามักจะตั้งคำถามในตอนนี้ อาจไม่ใช่คำถามแบบเดียวกับที่ถูกถามในอนาคต  การไม่เก็บข้อมูลขององค์กรตั้งแต่เริ่มต้น อาจทำให้เราเสียโอกาส และมีข้อมูลไม่เพียงพอที่จะตอบโจทย์ทางธุรกิจที่เปลี่ยนไป

การที่ค่าใช้จ่ายในการเก็บข้อมูลของ Data Lake ถูกกว่า Data Warehouse มากนั้น จะทำให้เราสามารถเก็บข้อมูลดิบเพื่อที่จะเตรียมใช้ในการวิเคราะห์ในวันข้างหน้าได้โดยไม่ได้ต้องคิดมากนัก

Data Lake จึงตอบโจทย์ในการเก็บข้อมูล “เผื่อ” ว่าเราจะต้องใช้มันในอนาคตได้ดี

การเข้าใจความแตกต่างในการเก็บข้อมูล ทำให้องค์กรสามารถแก้ปัญหาได้ตรงจุด

เรามาสรุปกันว่า ความแตกต่างในการเก็บข้อมูลในแต่ละรูปแบบนั้นเป็นอย่างไร


OLTP Database

Data Warehouse

Data Lake

Data Structure

ข้อมูลแบบมีโครงสร้าง

Structured Data

ข้อมูลแบบมีโครงสร้าง


Structured Data

ข้อมูลที่ไม่มีโครงสร้าง กึ่งโครงสร้าง และ มีโครงสร้าง

Unstructured, Semi-structured, Structured

ตัวอย่าง Use Case

การประมวลผลธุรกรรมในธุรกิจ

Data Science และ การวิเคราะห์ข้อมูล

Data Science และ การวิเคราะห์ข้อมูล

ผู้ใช้งาน

Business Users/ลูกค้า

Data Scientists/Data Analysts/Business Analysts

Data Scientists

ข้อดี

สามารถประมวลผลข้อมูลทีละรายการได้อย่างรวดเร็ว

มีประสิทธิภาพสูงสำหรับการดำเนินการค้นหาข้อมูล และ วิเคราะห์ข้อมูล แบบมีโครงสร้างที่มีจำนวนมาก ( Structured Data)

สามารถเก็บข้อมูลได้หลากหลาย โดยที่มีค่าใช้จ่ายที่คุ้มค่า


Data Structure (โครงสร้างของข้อมูล)

Database และ Data Warehouse สามารถเก็บได้เฉพาะ Structured Data เท่านั้น ส่วน Data Lake สามารถเก็บข้อมูลได้ทุกชนิด ไม่ว่าจะอยู่ในรูปแบบ ข้อมูลที่ไม่มีโครงสร้าง กึ่งโครงสร้าง หรือ มีโครงสร้าง

Use Cases ภายในองค์กร

OLTP Databases จะนิยมใช้ในการประมวลผลธุรกรรม ส่วน Data Lakes และ Data Warehouses จะเหมาะสำหรับการทำ Data Science และ การวิเคราะห์ข้อมูล

ผู้ใช้งาน

ใช้งานฐานข้อมูลนั้นส่วนมากจะเป็นผู้ใช้งานฝั่งธุรกิจ และ ลูกค้า ซึ่งส่วนมากจะอยู่ในระบบการดำเนินการต่าง ๆ ขององค์กร เช่น Enterprise Resource Planning (ERP) software สำหรับผู้ใช้งานทั่วไป และ social media application สำหรับลูกค้า

ข้อดี

ในการเก็บข้อมูลทั้ง 3 รูปแบบนั้นต่างก็มีข้อดีที่แตกต่างกัน ตามรูปแบบการใช้งาน

ข้อดีของ Traditional OLTP database คือ เหมาะสำหรับการประมวลผลข้อมูลทีละรายการ ซึ่งสิ่งนี้เป็นวิธีการเก็บข้อมูลในอุดมคติของระบบการดำเนินการ

Data Warehouse เหมาะสำหรับการค้นหาคำถามทางธุรกิจ และ สามารถใช้วิเคราะห์ข้อมูลที่มีปริมาณขนาดใหญ่ได้

Data Lake นั้นสามารถเก็บข้อมูลได้หลากหลายชนิด เพราะฉะนั้น Data lake เหมาะสำหรับการเก็บข้อมูลทุกประเภท แต่อาจจะไม่ได้คำนึงว่าจะต้องใช้ทันที หรือ อาจจะยังไม่รู้ว่าจะใช้ข้อมูลนี้เมื่อไหร่

เมื่อเราเห็นความแตกต่างของ ฐานข้อมูล Data Warehouse และ Data Lake แล้ว บางทีอาจมีมุมมองที่ทำให้สงสัยว่าทำไม เราต้องใช้  Data Warehouse และ Data Lake ในการวิเคราะห์ข้อมูล เพื่อให้เห็นภาพที่ชัดเจนมากขึ้น จึงขออนุญาตยกคำนิยามจากคุณ Asha Saxena ผู้อำนวยการบริษัท Future Technologies, Inc ซึ่งเป็นบริษัทให้คำปรึกษาด้านการวิเคราะห์ข้อมูล Big Data ผู้ที่ได้ให้นิยายถึงความแตกต่างไว้ว่า

ให้คุณลองจินตนาการว่า Data Warehouse เหมือนห้างสรรพสินค้า ที่มีร้านค้าตั้งอยู่เป็นมีโครงสร้าง รูปแบบแผนชัดเจน คล้ายกับ Data ใน Data Warehouse ที่ถูกเก็บอย่างมีแบบแผน และ Software ต่างๆสามารถนำข้อมูลไปใช้ได้ทันที   ส่วน Data Lake ซึ่งเหมือนกับตลาดนัด อาจไม่ได้มีการจัดระเบียบของร้านค้า เมื่อเราเดินดูอาจไม่รู้ว่าพื้นที่ของแต่ละร้านแบ่งกันอย่างไร สิ้นสุดตรงไหน แตกต่างจาก Data Warehouse ที่มีระเบียบแบบแผน  เพราะว่า Data Lake สามารถเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้าง เช่น เสียง ภาพ และ วีดีโอ 

Thinking Machines สามารถช่วยคุณในการ Migrate ข้อมูลเข้าระบบ Cloud 

เมื่อเรามีความรู้ความเข้าใจว่าการเก็บข้อมูลในแต่ละรูปแบบต่างกันอย่างไร เราจะสามารถเลือก Cloud Computing Solution ที่เหมาะกับองค์กรของเราได้ แต่ละองค์กรมักจะมีความแตกต่างในความต้องการด้านข้อมูลที่ไม่เหมือนกัน การทำ Cloud Migration นั้น จึงเหมือนเหมือนการตัดชุดสูทที่จะต้องตัดให้เหมาะกับแต่ละคน

ทีมงาน Thinking Machines มีประสบการณ์การทำงานกับบริษัทจากหลากหลายอุตสาหกรรม และ  มีประสบการณ์ในการแก้ปัญหาต่าง ๆ ที่เกี่ยวข้องข้อมูลที่แตกต่างกันในแต่ละบริษัท เราสามารถแนะนำคุณได้ว่า จากสิ่งที่คุณมีอยู่นั้น สามารถทำ Cloud Migration ได้อย่างไร ขอให้เราได้เป็นคนจัดการเรื่องข้อมูล เพื่อที่คุณก็จะสามารถโฟกัสได้ว่าคุณจะสามารถดำเนินการทางธุรกิจต่อได้อย่างไร หากต้องการคำปรึกษาสำหรับการเริ่มต้นการทำงานด้านข้อมูลภายในองค์กร สามารถติดต่อเพิ่มเติมได้ที่เว็บไซต์ https://thinkingmachin.es/ หรือ อีเมล์ [email protected]

ในวันที่วันที่ 4 ก.พ. ถึง 11 มี.ค. 2565 Thinking Machines  และ  TechSauce ได้จัด Workshop ในหัวข้อ AIMpower ที่จะช่วยให้สามารถเห็นภาพรวมของการใช้ข้อมูลในองค์กรให้ชัดเจนมากขึ้น สามารถริ่เริมการวางแผนการใช้ข้อมูลในองค์กร การวางโครงสร้างทีม หากสนใจสามารถสอบถามรายละเอียดเพิ่มเติมได้ที่ https://thinkingmachin.es/aimpower-thailand/

นอกเหนือจาก Workshop ที่กำลังเกิดขึ้นแล้ว Thinking Machines Thailand กำลังเปิดบ้านต้อนรับเพื่อนร่วมทีมใหม่ ๆ  ที่จะมาสร้าง  Solution ที่มี Impact ไปด้วยกัน รายละเอียดเพิ่มเติมเกี่ยวกับตำแหน่งงานที่เปิดรับ และ การสมัครงานสามารถเข้าไปได้ที่ https://thinkingmachines.freshteam.com/jobs 

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

สองวิธีเรียกคืนอำนาจบริหารจากบริษัทตัวเอง ถกประเด็นน่ารู้จากซีรีส์ Queen of tears

เจาะลึกประเด็นซีรีส์ Queen of tears การต่อสู้แย่งชิงอำนาจบริหาร Queens Group กำลังทวีความเข้มข้นขึ้นเรื่อยๆ ในความเป็นจริงแล้ว ในความเป็นจริงแล้ว ตระกูลฮงจะกลับมายึดคืนอำนาจบริหาร ...

Responsive image

17 เรื่อง AI ต้องรู้ จากรายงาน AI Index 2024

Techsauce ได้สรุป 17 ประเด็นสำคัญจากรายงาน AI Index Report 2024 ซึ่งจัดทำโดย Stanford Institute for Human-Centered Artificial Intelligence (HAI) ที่รวบรวมประเด็นต่างๆ ของปัญญาประดิ...

Responsive image

แนะเทรนด์ลงทุนในสตาร์ทอัพปี 2024 พร้อมช่องทางใหม่ในการระดมทุนจากงาน KATALYST TALK MEETUP #3

บทความที่เอสเอ็มอี สตาร์ทอัพควรอ่านเพื่อเป็นไกด์ไลน์ในการเผชิญความท้าทายในปีนี้ จากการรับฟังภายในงาน KATALYST TALK MEETUP #3 ‘Navigating the Startup Challenges in 2024 and Beyond’...