รู้จัก Corpus คืออะไร ศัพท์ใหม่ที่สำคัญในยุค AI อาจเป็นช่องทางหาเงินใหม่ของเหล่า Creator

สิ่งที่ถูกพูดถึงไม่น้อยไปกว่าคำว่า ‘AI’ นั่นคือ ‘Corpus’ เป็นคำที่ผู้บริหารจากบริษัทเทคโนโลยีใช้บ่อยในช่วงนี้ ไม่ว่าจะเป็น CEO ของ Reddit, Jimmy Wales จาก Wikipedia หรือแม้แต่ Bill Gates ผู้ก่อตั้ง Microsoft ก็ตาม ซึ่งถ้าพูดถึงในแง่ของเทคโนโลยี AI คำว่า Corpus หมายถึง ‘คลังข้อมูล’ ซึ่งเป็นสิ่งที่รวบรวมข้อมูลที่ใช้ในการฝึกฝน AI

ดังนั้นในยุคแห่ง AI คำว่า Corpus จึงเป็นอีกหนึ่งคำสำคัญที่ควรรู้จักในยุคนี้เลย บทความนี้ Techsauce จะพาไปทำความรู้จักกับเจ้าคลังข้อมูล AI กัน

Corpus คืออะไร ?

Corpus คือ คลังข้อมูลของ AI ที่ผู้สร้างใช้เพื่อรวบรวมข้อมูลต่าง  ๆ และนำมาฝึกฝนเพิ่มความสามารถให้กับ AI ถ้าเปรียบเทียบง่าย ๆ Corpus ก็เหมือนหนังสือที่รวบรวมข้อมูลเฉพาะทางด้านใดด้านหนึ่ง ซึ่งนำมาให้ AI อ่านเพื่อให้เรียนรู้และฝึกฝนให้เชี่ยวชาญในเรื่องนั้น ๆ นั่นเอง 

AI แต่ละตัวก็จะมี Corpus ที่รวบรวมข้อมูลเฉพาะด้านของตัวเองไว้ ซึ่งก็จะแตกต่างกันไปในแต่ละตัว และสำหรับประเภทของข้อมูลทางผู้สร้าง AI ก็จะเป็นคนเลือกเอง ดังนั้น ทักษะและความรู้ที่ AI เชี่ยวชาญก็จะขึ้นอยู่กับ Corpus ที่ผู้สร้างเลือกให้ 

Corpus จึงมีความสำคัญต่อ AI มาก เพราะเป็นตัวที่กำหนดความสามารถ ความรู้ ความเชี่ยวชาญให้กับ AI แต่ละตัวนั่นเอง

Corpus มีกี่ประเภท

ไม่ได้มีการจัดประเภทของ Copus ไว้อย่างชัดเจน เพราะมันมีได้หลายประเภทมาก ๆ เนื่องจากประเภทของ Corpus จะขึ้นอยู่กับว่า ผู้สร้างต้องการที่จะให้ AI เรียนรู้ข้อมูลประเภทไหน เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ ดังนั้น ประเภทของ Corpus ก็จะแตกต่างกันไปขึ้นอยู่กับวัตถุประสงค์และสิ่งที่ผู้สร้างต้องการให้ AI ทำ เช่น

1. Midjourney ซึ่งเป็นแพลตฟอร์มศิลปะที่ใช้ AI สร้างรูปภาพได้ด้วยการพิมพ์คำสั่งในรูปแบบข้อความ ดังนั้น AI ใน Midjourney จึงจำเป็นต้องเรียนรู้ 2 สิ่ง คือ รูปภาพและคำศัพท์ที่สอดคล้องกัน เช่น คุณสั่งให้ Midjourney สร้างภาพน้ำตกที่สวยงาม 

ถ้า AI จะสร้างรูปภาพน้ำตกออกมาได้ มันจำเป็นต้องเห็นภาพน้ำตกจำนวนมาก และเรียนรู้ว่าคำว่า ‘น้ำตก’ ดังนั้นใน Copus ของ Midjourney AI จึงต้องรวบรวมรูปภาพรูปภาพน้ำตกจำนวนมาก และคำศัพท์ที่สอดคล้องหรือสื่อความได้ตรงกับรูปภาพน้ำตก

2. ChatGPT เป็น AI ประเภทหนึ่งที่เรียกว่า Large Language Model (LLM) ซึ่งมีความสามารถในการสร้างรูปแบบการสนทนาได้คล้ายกับภาษาที่คนพูดคุย นอกจากนี้ยังสามารถตอบคำถามที่ซับซ้อนหรือแม้แต่สร้างผลงาน Creative เช่น เรื่องสั้น บทความ รวมถึงยังมีความสามารถในการเขียนโปรแกรม 

การที่ ChatGPT มีความสามารถรอบด้านขนาดนี้ก็ขึ้นอยู่กับ Corpus ที่ใช้ในการฝึกฝนเช่นเดียวกัน ในกรณีของ AI ตัวนี้ Corpus ของมันประกอบด้วยชุดข้อความขนาดใหญ่มากมายจากอินเทอร์เน็ต เช่น ข้อมูลจากเว็บไซต์ หนังสือ บทความ งานวิจัย การสนทนา แพลตฟอร์มโซเชียลมีเดีย หรือแม้แต่บทความจาก Wikipedia

การที่มี Corpus ที่รวบรวมข้อมูลจำนวนมหาศาลไว้ ทำให้ ChatGPT มีความสามารถรอบด้าน แต่ถ้าสังเกตดี ๆ ตัว ChatGPT ไม่สามารถสร้างหรือทำความเข้าใจรูปภาพได้ นั่นก็เป็นเพราะว่า Corpus ของ AI ตัวนี้ออกแบบมาให้ทำงานกับข้อความ แต่ไม่มีการป้อนข้อมูลเกี่ยวกับรูปภาพลงใน Corpus นั่นเอง

จากตัวอย่างเหล่านี้ทำให้เห็นชัดเจนว่า Corpus สามารถประกอบด้วยข้อมูลหลากหลายประเภท และหลากหลายด้าน การจำแนกประเภทของ Corpus จึงเป็นสิ่งที่เป็นไปได้ยาก รวมถึงยังตอกย้ำว่า การออกแบบ Corpus นั้นมีผลอย่างมากต่อความสามารถและความฉลาดของ AI หากเลือกข้อมูลที่ถูกต้องเหมาะสม คุณก็สามารถฝึก AI ให้ทำงานเฉพาะ หรือเลียนแบบลักษณะบางอย่างได้

ข้อมูลที่นำมาใช้จะถูกกฎหมายหรือไม่

เมื่อ Corpus มีข้อมูลมากเท่าไหร่ AI ก็จะยิ่งฉลาดมากขึ้นเท่านั้น ถ้าหากข้อมูลที่อยู่ใน Corpus มีเนื้อหาที่มีลิขสิทธิ์และถูกนำมาใช้โดยไม่ได้รับอนุญาต หลาย ๆ ก็ยังกังวลว่ามันจะผิดกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา

ถ้าพูดถึงกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา กฎหมายคุ้มครองสิทธิ์ของผู้สร้างสรรค์และเจ้าของผลงานต้นฉบับ โดยกำหนดให้เจ้าของลิขสิทธิ์เป็นผู้มีสิทธิ์แต่เพียงผู้เดียว ในงานอย่างเช่น หนังสือ เพลง หรือรูปภาพ แต่การใช้ AI ที่ถูกฝึกด้วยข้อมูลเหล่านี้ ไม่ได้ลอกเลียนแบบงานของต้นฉบับ

เพียงแต่เลียนแบบสไตล์หรือใช้องค์ประกอบจากมัน เช่น การสอน AI วาดรูปจากรูปวาดของศิลปินคนหนึ่ง หรือการสอน AI แต่งเพลงจากเพลงต้นฉบับของ Rihanna “การกระทำแบบนี้ผิดกฎหมายหรือไม่ ?” ยังคง เป็นประเด็นที่ศาลทั่วโลกถกเถียงกันอยู่

เนื่องจากในปัจจุบันยังไม่ข้อกำหนดหรือกฎหมายที่มาควบคุม AI อย่างเป็นทางการ แต่ตอนนี้รัฐบาลในหลาย ๆ ประเทศก็เริ่มร่างกฎหมายควบคุม AI กันแล้ว เช่น 

  • สหภาพยุโรป กำลังเสนอกฎหมายที่ให้ผู้สร้าง AI เปิดเผยข้อมูลที่ใช้ฝึกอบรม AI ของตนว่ามีเนื้อหาที่มีลิขสิทธิ์หรือไม่ เพื่อช่วยคุ้มครองเจ้าของลิขสิทธิ์ หากถูกละเมิดจะสามารถเรียกค่าชดเชยได้
  • สหรัฐอเมริกา สำนักงานวิจัยแห่งรัฐสภาสหรัฐฯ เสนอต่อรัฐสภาให้เฝ้าดูท่าทีที่ศาลสนองต่อกรณีลิขสิทธิ์ที่เกิดจาก AI ก่อนที่จะปรับปรุงแก้ไขกฎหมายลิขสิทธิ์

Corpus อาจสร้างช่องทางหาเงินใหม่

เมื่อมีการพูดถึงประเด็นเรื่องลิขสิทธิ์ ก็เหมือนเป็นการเปิดช่องทางให้กับเหล่า Creator ที่มีผลอยู่จำนวนมากสามารถนำผลงานเหล่านั้นมาขายให้กับผู้สร้าง AI ใช้ในการป้อนข้อมูลใส่ Corpus เช่น จิตรกรที่มีรูปวาดมากมายก็สามารถนำงานส่วนหนึ่งมาขาย เพื่อเป็นรายได้เสริม หรือแม้แต่นักร้องก็สามารถอัดเสียงของพวกเขามาขายได้เช่นเดียวกัน

ในอนาคตเมื่อบริษัทต่าง ๆ เริ่มใช้เทคโนโลยี AI มากขึ้น Corpus ก็อาจกลายเป็นเครื่องมือชิ้นสำคัญของยุค และอาจสร้างอุตสาหกรรมใหม่ อย่างการขายงานเพื่อนำไปพัฒนา Corpus ในอีกไม่กี่เดือนหรือไม่กี่ปีข้างหน้าเราคงจะได้ยินคงพูดถึงคำว่า “Corpus/Corpora” กันมากขึ้นเมื่อมีประเด็นที่เกี่ยวข้องกับ AI

อ้างอิง: fastcompany

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

สรุปแนวคิดที่จีนใช้บุกตลาดโลก กล้าลอง ล้มเร็ว ทำไว ไม่เริ่มอะไรจาก 0

อาจจะพูดได้ว่า ยุคที่จีนส่งออกแค่ของถูก กำลังถูกแทนที่ด้วยการส่งออกมาตรฐานใหม่ และเทคโนโลยีขั้นสูงไปทั่วโลก Techsauce มีโอกาสได้ฟังเซสชันของงาน Asian Financial Forum 2026 ที่ฮ่องกง...

Responsive image

เจาะลึกวิธีสเกล Omnichannel จากแผนระดับโลก สู่การชนะใจลูกค้าท้องถิ่น โดย Electrolux และ Konvy

ถอดบทเรียน Electrolux และ Konvy สู่การทำ Omnichannel ที่แท้จริง เลิกแยกทีม Online-Offline พร้อมมุ่งสู่ Instant Commerce และการใช้ Data ทำนายอนาคต เพื่อความอยู่รอดในยุครีเทลใหม่...

Responsive image

เมื่ออาชญากรรมไซเบอร์ปัจจุบัน กำลังกลายเป็นวิกฤตค้ามนุษย์ เสียงจากสีหศักดิ์ พวงเกตุแก้ว บนเวที Davos กับภารกิจทลายรังสแกมเมอร์ที่ท้าทายอำนาจรัฐ

เมื่ออาชญากรรมไซเบอร์ผสานการค้ามนุษย์และ AI สร้างความเสียหาย 3.6 แสนล้านดอลลาร์ ทำไม SE Asia ถึงเป็นเป้าหมาย และทางออกในการกวาดล้างโรงงานนรกเหล่านี้คืออะไรจากเวที Davos...