รู้จัก Corpus คืออะไร ศัพท์ใหม่ที่สำคัญในยุค AI อาจเป็นช่องทางหาเงินใหม่ของเหล่า Creator | Techsauce

รู้จัก Corpus คืออะไร ศัพท์ใหม่ที่สำคัญในยุค AI อาจเป็นช่องทางหาเงินใหม่ของเหล่า Creator

สิ่งที่ถูกพูดถึงไม่น้อยไปกว่าคำว่า ‘AI’ นั่นคือ ‘Corpus’ เป็นคำที่ผู้บริหารจากบริษัทเทคโนโลยีใช้บ่อยในช่วงนี้ ไม่ว่าจะเป็น CEO ของ Reddit, Jimmy Wales จาก Wikipedia หรือแม้แต่ Bill Gates ผู้ก่อตั้ง Microsoft ก็ตาม ซึ่งถ้าพูดถึงในแง่ของเทคโนโลยี AI คำว่า Corpus หมายถึง ‘คลังข้อมูล’ ซึ่งเป็นสิ่งที่รวบรวมข้อมูลที่ใช้ในการฝึกฝน AI

ดังนั้นในยุคแห่ง AI คำว่า Corpus จึงเป็นอีกหนึ่งคำสำคัญที่ควรรู้จักในยุคนี้เลย บทความนี้ Techsauce จะพาไปทำความรู้จักกับเจ้าคลังข้อมูล AI กัน

Corpus คืออะไร ?

Corpus คือ คลังข้อมูลของ AI ที่ผู้สร้างใช้เพื่อรวบรวมข้อมูลต่าง  ๆ และนำมาฝึกฝนเพิ่มความสามารถให้กับ AI ถ้าเปรียบเทียบง่าย ๆ Corpus ก็เหมือนหนังสือที่รวบรวมข้อมูลเฉพาะทางด้านใดด้านหนึ่ง ซึ่งนำมาให้ AI อ่านเพื่อให้เรียนรู้และฝึกฝนให้เชี่ยวชาญในเรื่องนั้น ๆ นั่นเอง 

AI แต่ละตัวก็จะมี Corpus ที่รวบรวมข้อมูลเฉพาะด้านของตัวเองไว้ ซึ่งก็จะแตกต่างกันไปในแต่ละตัว และสำหรับประเภทของข้อมูลทางผู้สร้าง AI ก็จะเป็นคนเลือกเอง ดังนั้น ทักษะและความรู้ที่ AI เชี่ยวชาญก็จะขึ้นอยู่กับ Corpus ที่ผู้สร้างเลือกให้ 

Corpus จึงมีความสำคัญต่อ AI มาก เพราะเป็นตัวที่กำหนดความสามารถ ความรู้ ความเชี่ยวชาญให้กับ AI แต่ละตัวนั่นเอง

Corpus มีกี่ประเภท

ไม่ได้มีการจัดประเภทของ Copus ไว้อย่างชัดเจน เพราะมันมีได้หลายประเภทมาก ๆ เนื่องจากประเภทของ Corpus จะขึ้นอยู่กับว่า ผู้สร้างต้องการที่จะให้ AI เรียนรู้ข้อมูลประเภทไหน เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ ดังนั้น ประเภทของ Corpus ก็จะแตกต่างกันไปขึ้นอยู่กับวัตถุประสงค์และสิ่งที่ผู้สร้างต้องการให้ AI ทำ เช่น

1. Midjourney ซึ่งเป็นแพลตฟอร์มศิลปะที่ใช้ AI สร้างรูปภาพได้ด้วยการพิมพ์คำสั่งในรูปแบบข้อความ ดังนั้น AI ใน Midjourney จึงจำเป็นต้องเรียนรู้ 2 สิ่ง คือ รูปภาพและคำศัพท์ที่สอดคล้องกัน เช่น คุณสั่งให้ Midjourney สร้างภาพน้ำตกที่สวยงาม 

ถ้า AI จะสร้างรูปภาพน้ำตกออกมาได้ มันจำเป็นต้องเห็นภาพน้ำตกจำนวนมาก และเรียนรู้ว่าคำว่า ‘น้ำตก’ ดังนั้นใน Copus ของ Midjourney AI จึงต้องรวบรวมรูปภาพรูปภาพน้ำตกจำนวนมาก และคำศัพท์ที่สอดคล้องหรือสื่อความได้ตรงกับรูปภาพน้ำตก

2. ChatGPT เป็น AI ประเภทหนึ่งที่เรียกว่า Large Language Model (LLM) ซึ่งมีความสามารถในการสร้างรูปแบบการสนทนาได้คล้ายกับภาษาที่คนพูดคุย นอกจากนี้ยังสามารถตอบคำถามที่ซับซ้อนหรือแม้แต่สร้างผลงาน Creative เช่น เรื่องสั้น บทความ รวมถึงยังมีความสามารถในการเขียนโปรแกรม 

การที่ ChatGPT มีความสามารถรอบด้านขนาดนี้ก็ขึ้นอยู่กับ Corpus ที่ใช้ในการฝึกฝนเช่นเดียวกัน ในกรณีของ AI ตัวนี้ Corpus ของมันประกอบด้วยชุดข้อความขนาดใหญ่มากมายจากอินเทอร์เน็ต เช่น ข้อมูลจากเว็บไซต์ หนังสือ บทความ งานวิจัย การสนทนา แพลตฟอร์มโซเชียลมีเดีย หรือแม้แต่บทความจาก Wikipedia

การที่มี Corpus ที่รวบรวมข้อมูลจำนวนมหาศาลไว้ ทำให้ ChatGPT มีความสามารถรอบด้าน แต่ถ้าสังเกตดี ๆ ตัว ChatGPT ไม่สามารถสร้างหรือทำความเข้าใจรูปภาพได้ นั่นก็เป็นเพราะว่า Corpus ของ AI ตัวนี้ออกแบบมาให้ทำงานกับข้อความ แต่ไม่มีการป้อนข้อมูลเกี่ยวกับรูปภาพลงใน Corpus นั่นเอง

จากตัวอย่างเหล่านี้ทำให้เห็นชัดเจนว่า Corpus สามารถประกอบด้วยข้อมูลหลากหลายประเภท และหลากหลายด้าน การจำแนกประเภทของ Corpus จึงเป็นสิ่งที่เป็นไปได้ยาก รวมถึงยังตอกย้ำว่า การออกแบบ Corpus นั้นมีผลอย่างมากต่อความสามารถและความฉลาดของ AI หากเลือกข้อมูลที่ถูกต้องเหมาะสม คุณก็สามารถฝึก AI ให้ทำงานเฉพาะ หรือเลียนแบบลักษณะบางอย่างได้

ข้อมูลที่นำมาใช้จะถูกกฎหมายหรือไม่

เมื่อ Corpus มีข้อมูลมากเท่าไหร่ AI ก็จะยิ่งฉลาดมากขึ้นเท่านั้น ถ้าหากข้อมูลที่อยู่ใน Corpus มีเนื้อหาที่มีลิขสิทธิ์และถูกนำมาใช้โดยไม่ได้รับอนุญาต หลาย ๆ ก็ยังกังวลว่ามันจะผิดกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา

ถ้าพูดถึงกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา กฎหมายคุ้มครองสิทธิ์ของผู้สร้างสรรค์และเจ้าของผลงานต้นฉบับ โดยกำหนดให้เจ้าของลิขสิทธิ์เป็นผู้มีสิทธิ์แต่เพียงผู้เดียว ในงานอย่างเช่น หนังสือ เพลง หรือรูปภาพ แต่การใช้ AI ที่ถูกฝึกด้วยข้อมูลเหล่านี้ ไม่ได้ลอกเลียนแบบงานของต้นฉบับ

เพียงแต่เลียนแบบสไตล์หรือใช้องค์ประกอบจากมัน เช่น การสอน AI วาดรูปจากรูปวาดของศิลปินคนหนึ่ง หรือการสอน AI แต่งเพลงจากเพลงต้นฉบับของ Rihanna “การกระทำแบบนี้ผิดกฎหมายหรือไม่ ?” ยังคง เป็นประเด็นที่ศาลทั่วโลกถกเถียงกันอยู่

เนื่องจากในปัจจุบันยังไม่ข้อกำหนดหรือกฎหมายที่มาควบคุม AI อย่างเป็นทางการ แต่ตอนนี้รัฐบาลในหลาย ๆ ประเทศก็เริ่มร่างกฎหมายควบคุม AI กันแล้ว เช่น 

  • สหภาพยุโรป กำลังเสนอกฎหมายที่ให้ผู้สร้าง AI เปิดเผยข้อมูลที่ใช้ฝึกอบรม AI ของตนว่ามีเนื้อหาที่มีลิขสิทธิ์หรือไม่ เพื่อช่วยคุ้มครองเจ้าของลิขสิทธิ์ หากถูกละเมิดจะสามารถเรียกค่าชดเชยได้
  • สหรัฐอเมริกา สำนักงานวิจัยแห่งรัฐสภาสหรัฐฯ เสนอต่อรัฐสภาให้เฝ้าดูท่าทีที่ศาลสนองต่อกรณีลิขสิทธิ์ที่เกิดจาก AI ก่อนที่จะปรับปรุงแก้ไขกฎหมายลิขสิทธิ์

Corpus อาจสร้างช่องทางหาเงินใหม่

เมื่อมีการพูดถึงประเด็นเรื่องลิขสิทธิ์ ก็เหมือนเป็นการเปิดช่องทางให้กับเหล่า Creator ที่มีผลอยู่จำนวนมากสามารถนำผลงานเหล่านั้นมาขายให้กับผู้สร้าง AI ใช้ในการป้อนข้อมูลใส่ Corpus เช่น จิตรกรที่มีรูปวาดมากมายก็สามารถนำงานส่วนหนึ่งมาขาย เพื่อเป็นรายได้เสริม หรือแม้แต่นักร้องก็สามารถอัดเสียงของพวกเขามาขายได้เช่นเดียวกัน

ในอนาคตเมื่อบริษัทต่าง ๆ เริ่มใช้เทคโนโลยี AI มากขึ้น Corpus ก็อาจกลายเป็นเครื่องมือชิ้นสำคัญของยุค และอาจสร้างอุตสาหกรรมใหม่ อย่างการขายงานเพื่อนำไปพัฒนา Corpus ในอีกไม่กี่เดือนหรือไม่กี่ปีข้างหน้าเราคงจะได้ยินคงพูดถึงคำว่า “Corpus/Corpora” กันมากขึ้นเมื่อมีประเด็นที่เกี่ยวข้องกับ AI

อ้างอิง: fastcompany

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

RELATED ARTICLE

Responsive image

ธ.ก.ส. เดินหน้า ‘New Gen Hug บ้านเกิด Season 2’ เฟ้นหาเกษตรกรรุ่นใหม่ เศรษฐกิจชุมชนยั่งยืน

ธ.ก.ส. เดินหน้า ‘New Gen Hug บ้านเกิด Season 2’ เฟ้นหาเกษตรกรต้นแบบ สร้างแรงบันดาลใจ ยกระดับเศรษฐกิจชุมชน บนหน้าจอทีวี...

Responsive image

‘ตัวพ่อ’ วงการเทค 2023 ผู้สร้างปรากฏการณ์ ดราม่า และโอกาส

ในปีนี้ Techsauce ได้รวม 3 ตัวพ่อแห่งวงการเทคโนโลยี 2023 ที่มีบทบาท อิทธิพล และสร้างดราม่า มากที่สุดแห่งปี !...

Responsive image

เปิดตัว “ออร์บิกซ์” (orbix) กระดานเทรดสินทรัพย์ดิจิทัล ตั้งเป้าสู่ผู้นำด้านบริการสินทรัพย์ดิจิทัล

ออร์บิกซ์ เทรด เปิดตัว “orbix” แพลตฟอร์มซื้อขายสินทรัพย์ดิจิทัล รองรับความต้องการของนักลงทุนที่เพิ่มขึ้น เข้าถึงบริการที่ตอบโจทย์การใช้งานและปลอดภัย...