รู้จัก Corpus คืออะไร ศัพท์ใหม่ที่สำคัญในยุค AI อาจเป็นช่องทางหาเงินใหม่ของเหล่า Creator

สิ่งที่ถูกพูดถึงไม่น้อยไปกว่าคำว่า ‘AI’ นั่นคือ ‘Corpus’ เป็นคำที่ผู้บริหารจากบริษัทเทคโนโลยีใช้บ่อยในช่วงนี้ ไม่ว่าจะเป็น CEO ของ Reddit, Jimmy Wales จาก Wikipedia หรือแม้แต่ Bill Gates ผู้ก่อตั้ง Microsoft ก็ตาม ซึ่งถ้าพูดถึงในแง่ของเทคโนโลยี AI คำว่า Corpus หมายถึง ‘คลังข้อมูล’ ซึ่งเป็นสิ่งที่รวบรวมข้อมูลที่ใช้ในการฝึกฝน AI

ดังนั้นในยุคแห่ง AI คำว่า Corpus จึงเป็นอีกหนึ่งคำสำคัญที่ควรรู้จักในยุคนี้เลย บทความนี้ Techsauce จะพาไปทำความรู้จักกับเจ้าคลังข้อมูล AI กัน

Corpus คืออะไร ?

Corpus คือ คลังข้อมูลของ AI ที่ผู้สร้างใช้เพื่อรวบรวมข้อมูลต่าง  ๆ และนำมาฝึกฝนเพิ่มความสามารถให้กับ AI ถ้าเปรียบเทียบง่าย ๆ Corpus ก็เหมือนหนังสือที่รวบรวมข้อมูลเฉพาะทางด้านใดด้านหนึ่ง ซึ่งนำมาให้ AI อ่านเพื่อให้เรียนรู้และฝึกฝนให้เชี่ยวชาญในเรื่องนั้น ๆ นั่นเอง 

AI แต่ละตัวก็จะมี Corpus ที่รวบรวมข้อมูลเฉพาะด้านของตัวเองไว้ ซึ่งก็จะแตกต่างกันไปในแต่ละตัว และสำหรับประเภทของข้อมูลทางผู้สร้าง AI ก็จะเป็นคนเลือกเอง ดังนั้น ทักษะและความรู้ที่ AI เชี่ยวชาญก็จะขึ้นอยู่กับ Corpus ที่ผู้สร้างเลือกให้ 

Corpus จึงมีความสำคัญต่อ AI มาก เพราะเป็นตัวที่กำหนดความสามารถ ความรู้ ความเชี่ยวชาญให้กับ AI แต่ละตัวนั่นเอง

Corpus มีกี่ประเภท

ไม่ได้มีการจัดประเภทของ Copus ไว้อย่างชัดเจน เพราะมันมีได้หลายประเภทมาก ๆ เนื่องจากประเภทของ Corpus จะขึ้นอยู่กับว่า ผู้สร้างต้องการที่จะให้ AI เรียนรู้ข้อมูลประเภทไหน เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ ดังนั้น ประเภทของ Corpus ก็จะแตกต่างกันไปขึ้นอยู่กับวัตถุประสงค์และสิ่งที่ผู้สร้างต้องการให้ AI ทำ เช่น

1. Midjourney ซึ่งเป็นแพลตฟอร์มศิลปะที่ใช้ AI สร้างรูปภาพได้ด้วยการพิมพ์คำสั่งในรูปแบบข้อความ ดังนั้น AI ใน Midjourney จึงจำเป็นต้องเรียนรู้ 2 สิ่ง คือ รูปภาพและคำศัพท์ที่สอดคล้องกัน เช่น คุณสั่งให้ Midjourney สร้างภาพน้ำตกที่สวยงาม 

ถ้า AI จะสร้างรูปภาพน้ำตกออกมาได้ มันจำเป็นต้องเห็นภาพน้ำตกจำนวนมาก และเรียนรู้ว่าคำว่า ‘น้ำตก’ ดังนั้นใน Copus ของ Midjourney AI จึงต้องรวบรวมรูปภาพรูปภาพน้ำตกจำนวนมาก และคำศัพท์ที่สอดคล้องหรือสื่อความได้ตรงกับรูปภาพน้ำตก

2. ChatGPT เป็น AI ประเภทหนึ่งที่เรียกว่า Large Language Model (LLM) ซึ่งมีความสามารถในการสร้างรูปแบบการสนทนาได้คล้ายกับภาษาที่คนพูดคุย นอกจากนี้ยังสามารถตอบคำถามที่ซับซ้อนหรือแม้แต่สร้างผลงาน Creative เช่น เรื่องสั้น บทความ รวมถึงยังมีความสามารถในการเขียนโปรแกรม 

การที่ ChatGPT มีความสามารถรอบด้านขนาดนี้ก็ขึ้นอยู่กับ Corpus ที่ใช้ในการฝึกฝนเช่นเดียวกัน ในกรณีของ AI ตัวนี้ Corpus ของมันประกอบด้วยชุดข้อความขนาดใหญ่มากมายจากอินเทอร์เน็ต เช่น ข้อมูลจากเว็บไซต์ หนังสือ บทความ งานวิจัย การสนทนา แพลตฟอร์มโซเชียลมีเดีย หรือแม้แต่บทความจาก Wikipedia

การที่มี Corpus ที่รวบรวมข้อมูลจำนวนมหาศาลไว้ ทำให้ ChatGPT มีความสามารถรอบด้าน แต่ถ้าสังเกตดี ๆ ตัว ChatGPT ไม่สามารถสร้างหรือทำความเข้าใจรูปภาพได้ นั่นก็เป็นเพราะว่า Corpus ของ AI ตัวนี้ออกแบบมาให้ทำงานกับข้อความ แต่ไม่มีการป้อนข้อมูลเกี่ยวกับรูปภาพลงใน Corpus นั่นเอง

จากตัวอย่างเหล่านี้ทำให้เห็นชัดเจนว่า Corpus สามารถประกอบด้วยข้อมูลหลากหลายประเภท และหลากหลายด้าน การจำแนกประเภทของ Corpus จึงเป็นสิ่งที่เป็นไปได้ยาก รวมถึงยังตอกย้ำว่า การออกแบบ Corpus นั้นมีผลอย่างมากต่อความสามารถและความฉลาดของ AI หากเลือกข้อมูลที่ถูกต้องเหมาะสม คุณก็สามารถฝึก AI ให้ทำงานเฉพาะ หรือเลียนแบบลักษณะบางอย่างได้

ข้อมูลที่นำมาใช้จะถูกกฎหมายหรือไม่

เมื่อ Corpus มีข้อมูลมากเท่าไหร่ AI ก็จะยิ่งฉลาดมากขึ้นเท่านั้น ถ้าหากข้อมูลที่อยู่ใน Corpus มีเนื้อหาที่มีลิขสิทธิ์และถูกนำมาใช้โดยไม่ได้รับอนุญาต หลาย ๆ ก็ยังกังวลว่ามันจะผิดกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา

ถ้าพูดถึงกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา กฎหมายคุ้มครองสิทธิ์ของผู้สร้างสรรค์และเจ้าของผลงานต้นฉบับ โดยกำหนดให้เจ้าของลิขสิทธิ์เป็นผู้มีสิทธิ์แต่เพียงผู้เดียว ในงานอย่างเช่น หนังสือ เพลง หรือรูปภาพ แต่การใช้ AI ที่ถูกฝึกด้วยข้อมูลเหล่านี้ ไม่ได้ลอกเลียนแบบงานของต้นฉบับ

เพียงแต่เลียนแบบสไตล์หรือใช้องค์ประกอบจากมัน เช่น การสอน AI วาดรูปจากรูปวาดของศิลปินคนหนึ่ง หรือการสอน AI แต่งเพลงจากเพลงต้นฉบับของ Rihanna “การกระทำแบบนี้ผิดกฎหมายหรือไม่ ?” ยังคง เป็นประเด็นที่ศาลทั่วโลกถกเถียงกันอยู่

เนื่องจากในปัจจุบันยังไม่ข้อกำหนดหรือกฎหมายที่มาควบคุม AI อย่างเป็นทางการ แต่ตอนนี้รัฐบาลในหลาย ๆ ประเทศก็เริ่มร่างกฎหมายควบคุม AI กันแล้ว เช่น 

  • สหภาพยุโรป กำลังเสนอกฎหมายที่ให้ผู้สร้าง AI เปิดเผยข้อมูลที่ใช้ฝึกอบรม AI ของตนว่ามีเนื้อหาที่มีลิขสิทธิ์หรือไม่ เพื่อช่วยคุ้มครองเจ้าของลิขสิทธิ์ หากถูกละเมิดจะสามารถเรียกค่าชดเชยได้
  • สหรัฐอเมริกา สำนักงานวิจัยแห่งรัฐสภาสหรัฐฯ เสนอต่อรัฐสภาให้เฝ้าดูท่าทีที่ศาลสนองต่อกรณีลิขสิทธิ์ที่เกิดจาก AI ก่อนที่จะปรับปรุงแก้ไขกฎหมายลิขสิทธิ์

Corpus อาจสร้างช่องทางหาเงินใหม่

เมื่อมีการพูดถึงประเด็นเรื่องลิขสิทธิ์ ก็เหมือนเป็นการเปิดช่องทางให้กับเหล่า Creator ที่มีผลอยู่จำนวนมากสามารถนำผลงานเหล่านั้นมาขายให้กับผู้สร้าง AI ใช้ในการป้อนข้อมูลใส่ Corpus เช่น จิตรกรที่มีรูปวาดมากมายก็สามารถนำงานส่วนหนึ่งมาขาย เพื่อเป็นรายได้เสริม หรือแม้แต่นักร้องก็สามารถอัดเสียงของพวกเขามาขายได้เช่นเดียวกัน

ในอนาคตเมื่อบริษัทต่าง ๆ เริ่มใช้เทคโนโลยี AI มากขึ้น Corpus ก็อาจกลายเป็นเครื่องมือชิ้นสำคัญของยุค และอาจสร้างอุตสาหกรรมใหม่ อย่างการขายงานเพื่อนำไปพัฒนา Corpus ในอีกไม่กี่เดือนหรือไม่กี่ปีข้างหน้าเราคงจะได้ยินคงพูดถึงคำว่า “Corpus/Corpora” กันมากขึ้นเมื่อมีประเด็นที่เกี่ยวข้องกับ AI

อ้างอิง: fastcompany

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

วิเคราะห์กลยุทธ์ AEF บทเรียน ‘หัวหอม 4 ชั้น’ กับการเลือก Startup เข้าพอร์ตให้กลายเป็น Unicorn ระดับโลก

ถอดกลยุทธ์ "หัวหอม 4 ชั้น" จาก AEF กองทุน Not-for-profit ของ Alibaba ที่ปั้น Startup ฮ่องกงสู่ Unicorn มูลค่ากว่าพันล้านดอลลาร์สหรัฐฯ...

Responsive image

เอเชียกำลังขับเคลื่อนโลกทั้งใบ แต่แทบไม่มีใครมองเห็น รู้จัก ‘โครงสร้างพื้นฐานล่องหนของเอเชีย’ ที่อยู่เบื้องหลัง AI, ชิป และเศรษฐกิจโลก

เจาะลึก ‘Asia’s Invisible Infrastructure’ โครงสร้างพื้นฐานล่องหนของเอเชีย ตั้งแต่ Semiconductor, Supply Chain, Logistics ไปจนถึง Data Infrastructure ที่กำลังกลายเป็นกระดูกสันหลังขอ...

Responsive image

บริษัทสวีเดนอายุ 90 ปี ที่อยู่กับสนามบินไทยมากว่า 20 ปี รู้จักบริษัท ‘SAAB’ ผู้อยู่เบื้องหลังระบบเฝ้าระวังภาคพื้นของสนามบินไทย

Saab ส่งสัญญาณขยายระบบบริหารจราจรทางอากาศ (ATM) ไปยังสนามบินอื่นในไทย หลังเป็นผู้ติดตั้งระบบเฝ้าระวังภาคพื้นที่สุวรรณภูมิตั้งแต่ปี 2006 และดอนเมืองตั้งแต่ปี 2017 พร้อมเปิดพอร์ตธุรก...