รู้จัก Corpus คืออะไร ศัพท์ใหม่ที่สำคัญในยุค AI อาจเป็นช่องทางหาเงินใหม่ของเหล่า Creator | Techsauce

รู้จัก Corpus คืออะไร ศัพท์ใหม่ที่สำคัญในยุค AI อาจเป็นช่องทางหาเงินใหม่ของเหล่า Creator

สิ่งที่ถูกพูดถึงไม่น้อยไปกว่าคำว่า ‘AI’ นั่นคือ ‘Corpus’ เป็นคำที่ผู้บริหารจากบริษัทเทคโนโลยีใช้บ่อยในช่วงนี้ ไม่ว่าจะเป็น CEO ของ Reddit, Jimmy Wales จาก Wikipedia หรือแม้แต่ Bill Gates ผู้ก่อตั้ง Microsoft ก็ตาม ซึ่งถ้าพูดถึงในแง่ของเทคโนโลยี AI คำว่า Corpus หมายถึง ‘คลังข้อมูล’ ซึ่งเป็นสิ่งที่รวบรวมข้อมูลที่ใช้ในการฝึกฝน AI

ดังนั้นในยุคแห่ง AI คำว่า Corpus จึงเป็นอีกหนึ่งคำสำคัญที่ควรรู้จักในยุคนี้เลย บทความนี้ Techsauce จะพาไปทำความรู้จักกับเจ้าคลังข้อมูล AI กัน

Corpus คืออะไร ?

Corpus คือ คลังข้อมูลของ AI ที่ผู้สร้างใช้เพื่อรวบรวมข้อมูลต่าง  ๆ และนำมาฝึกฝนเพิ่มความสามารถให้กับ AI ถ้าเปรียบเทียบง่าย ๆ Corpus ก็เหมือนหนังสือที่รวบรวมข้อมูลเฉพาะทางด้านใดด้านหนึ่ง ซึ่งนำมาให้ AI อ่านเพื่อให้เรียนรู้และฝึกฝนให้เชี่ยวชาญในเรื่องนั้น ๆ นั่นเอง 

AI แต่ละตัวก็จะมี Corpus ที่รวบรวมข้อมูลเฉพาะด้านของตัวเองไว้ ซึ่งก็จะแตกต่างกันไปในแต่ละตัว และสำหรับประเภทของข้อมูลทางผู้สร้าง AI ก็จะเป็นคนเลือกเอง ดังนั้น ทักษะและความรู้ที่ AI เชี่ยวชาญก็จะขึ้นอยู่กับ Corpus ที่ผู้สร้างเลือกให้ 

Corpus จึงมีความสำคัญต่อ AI มาก เพราะเป็นตัวที่กำหนดความสามารถ ความรู้ ความเชี่ยวชาญให้กับ AI แต่ละตัวนั่นเอง

Corpus มีกี่ประเภท

ไม่ได้มีการจัดประเภทของ Copus ไว้อย่างชัดเจน เพราะมันมีได้หลายประเภทมาก ๆ เนื่องจากประเภทของ Corpus จะขึ้นอยู่กับว่า ผู้สร้างต้องการที่จะให้ AI เรียนรู้ข้อมูลประเภทไหน เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ ดังนั้น ประเภทของ Corpus ก็จะแตกต่างกันไปขึ้นอยู่กับวัตถุประสงค์และสิ่งที่ผู้สร้างต้องการให้ AI ทำ เช่น

1. Midjourney ซึ่งเป็นแพลตฟอร์มศิลปะที่ใช้ AI สร้างรูปภาพได้ด้วยการพิมพ์คำสั่งในรูปแบบข้อความ ดังนั้น AI ใน Midjourney จึงจำเป็นต้องเรียนรู้ 2 สิ่ง คือ รูปภาพและคำศัพท์ที่สอดคล้องกัน เช่น คุณสั่งให้ Midjourney สร้างภาพน้ำตกที่สวยงาม 

ถ้า AI จะสร้างรูปภาพน้ำตกออกมาได้ มันจำเป็นต้องเห็นภาพน้ำตกจำนวนมาก และเรียนรู้ว่าคำว่า ‘น้ำตก’ ดังนั้นใน Copus ของ Midjourney AI จึงต้องรวบรวมรูปภาพรูปภาพน้ำตกจำนวนมาก และคำศัพท์ที่สอดคล้องหรือสื่อความได้ตรงกับรูปภาพน้ำตก

2. ChatGPT เป็น AI ประเภทหนึ่งที่เรียกว่า Large Language Model (LLM) ซึ่งมีความสามารถในการสร้างรูปแบบการสนทนาได้คล้ายกับภาษาที่คนพูดคุย นอกจากนี้ยังสามารถตอบคำถามที่ซับซ้อนหรือแม้แต่สร้างผลงาน Creative เช่น เรื่องสั้น บทความ รวมถึงยังมีความสามารถในการเขียนโปรแกรม 

การที่ ChatGPT มีความสามารถรอบด้านขนาดนี้ก็ขึ้นอยู่กับ Corpus ที่ใช้ในการฝึกฝนเช่นเดียวกัน ในกรณีของ AI ตัวนี้ Corpus ของมันประกอบด้วยชุดข้อความขนาดใหญ่มากมายจากอินเทอร์เน็ต เช่น ข้อมูลจากเว็บไซต์ หนังสือ บทความ งานวิจัย การสนทนา แพลตฟอร์มโซเชียลมีเดีย หรือแม้แต่บทความจาก Wikipedia

การที่มี Corpus ที่รวบรวมข้อมูลจำนวนมหาศาลไว้ ทำให้ ChatGPT มีความสามารถรอบด้าน แต่ถ้าสังเกตดี ๆ ตัว ChatGPT ไม่สามารถสร้างหรือทำความเข้าใจรูปภาพได้ นั่นก็เป็นเพราะว่า Corpus ของ AI ตัวนี้ออกแบบมาให้ทำงานกับข้อความ แต่ไม่มีการป้อนข้อมูลเกี่ยวกับรูปภาพลงใน Corpus นั่นเอง

จากตัวอย่างเหล่านี้ทำให้เห็นชัดเจนว่า Corpus สามารถประกอบด้วยข้อมูลหลากหลายประเภท และหลากหลายด้าน การจำแนกประเภทของ Corpus จึงเป็นสิ่งที่เป็นไปได้ยาก รวมถึงยังตอกย้ำว่า การออกแบบ Corpus นั้นมีผลอย่างมากต่อความสามารถและความฉลาดของ AI หากเลือกข้อมูลที่ถูกต้องเหมาะสม คุณก็สามารถฝึก AI ให้ทำงานเฉพาะ หรือเลียนแบบลักษณะบางอย่างได้

ข้อมูลที่นำมาใช้จะถูกกฎหมายหรือไม่

เมื่อ Corpus มีข้อมูลมากเท่าไหร่ AI ก็จะยิ่งฉลาดมากขึ้นเท่านั้น ถ้าหากข้อมูลที่อยู่ใน Corpus มีเนื้อหาที่มีลิขสิทธิ์และถูกนำมาใช้โดยไม่ได้รับอนุญาต หลาย ๆ ก็ยังกังวลว่ามันจะผิดกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา

ถ้าพูดถึงกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา กฎหมายคุ้มครองสิทธิ์ของผู้สร้างสรรค์และเจ้าของผลงานต้นฉบับ โดยกำหนดให้เจ้าของลิขสิทธิ์เป็นผู้มีสิทธิ์แต่เพียงผู้เดียว ในงานอย่างเช่น หนังสือ เพลง หรือรูปภาพ แต่การใช้ AI ที่ถูกฝึกด้วยข้อมูลเหล่านี้ ไม่ได้ลอกเลียนแบบงานของต้นฉบับ

เพียงแต่เลียนแบบสไตล์หรือใช้องค์ประกอบจากมัน เช่น การสอน AI วาดรูปจากรูปวาดของศิลปินคนหนึ่ง หรือการสอน AI แต่งเพลงจากเพลงต้นฉบับของ Rihanna “การกระทำแบบนี้ผิดกฎหมายหรือไม่ ?” ยังคง เป็นประเด็นที่ศาลทั่วโลกถกเถียงกันอยู่

เนื่องจากในปัจจุบันยังไม่ข้อกำหนดหรือกฎหมายที่มาควบคุม AI อย่างเป็นทางการ แต่ตอนนี้รัฐบาลในหลาย ๆ ประเทศก็เริ่มร่างกฎหมายควบคุม AI กันแล้ว เช่น 

  • สหภาพยุโรป กำลังเสนอกฎหมายที่ให้ผู้สร้าง AI เปิดเผยข้อมูลที่ใช้ฝึกอบรม AI ของตนว่ามีเนื้อหาที่มีลิขสิทธิ์หรือไม่ เพื่อช่วยคุ้มครองเจ้าของลิขสิทธิ์ หากถูกละเมิดจะสามารถเรียกค่าชดเชยได้
  • สหรัฐอเมริกา สำนักงานวิจัยแห่งรัฐสภาสหรัฐฯ เสนอต่อรัฐสภาให้เฝ้าดูท่าทีที่ศาลสนองต่อกรณีลิขสิทธิ์ที่เกิดจาก AI ก่อนที่จะปรับปรุงแก้ไขกฎหมายลิขสิทธิ์

Corpus อาจสร้างช่องทางหาเงินใหม่

เมื่อมีการพูดถึงประเด็นเรื่องลิขสิทธิ์ ก็เหมือนเป็นการเปิดช่องทางให้กับเหล่า Creator ที่มีผลอยู่จำนวนมากสามารถนำผลงานเหล่านั้นมาขายให้กับผู้สร้าง AI ใช้ในการป้อนข้อมูลใส่ Corpus เช่น จิตรกรที่มีรูปวาดมากมายก็สามารถนำงานส่วนหนึ่งมาขาย เพื่อเป็นรายได้เสริม หรือแม้แต่นักร้องก็สามารถอัดเสียงของพวกเขามาขายได้เช่นเดียวกัน

ในอนาคตเมื่อบริษัทต่าง ๆ เริ่มใช้เทคโนโลยี AI มากขึ้น Corpus ก็อาจกลายเป็นเครื่องมือชิ้นสำคัญของยุค และอาจสร้างอุตสาหกรรมใหม่ อย่างการขายงานเพื่อนำไปพัฒนา Corpus ในอีกไม่กี่เดือนหรือไม่กี่ปีข้างหน้าเราคงจะได้ยินคงพูดถึงคำว่า “Corpus/Corpora” กันมากขึ้นเมื่อมีประเด็นที่เกี่ยวข้องกับ AI

อ้างอิง: fastcompany

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

ส่องจุดเด่นดิจิทัล โซลูชันของ WHAUP ระบบบริการสาธารณูปโภคและพลังงานอัจฉริยะ

ทำความรู้จักโซลูชันบริหารจัดการพลังงานอัจฉริยะ แนวคิดการพัฒนาระบบสาธารณูปโภคและพลังงานแห่งอนาคต ภายใต้ บริษัท ดับบลิวเอชเอ ยูทิลิตี้ส์ แอนด์ พาวเวอร์ จำกัด (มหาชน) หรือ WHAUP บริษ...

Responsive image

บทสรุปการสัมภาษณ์ Dr. Ted Gover : เลือกตั้งสหรัฐฯ จุดเปลี่ยนเศรษฐกิจไทย รุกสานความร่วมมือด้านเทคโนโลยีและนวัตกรรม

บทสรุปการสัมภาษณ์ Dr. Ted Gover ร่วมพูดคุยเกี่ยวกับการเลือกตั้งประธานาธิบดีสหรัฐฯ ที่กำลังจะมีขึ้น ผลกระทบที่อาจเกิดขึ้นต่อความสัมพันธ์ระหว่างสหรัฐฯ-ไทย และความท้าทายสำคัญสำหรับทั้...

Responsive image

เผยแนวโน้มและผลกระทบของ AI ผ่านมุมมองของนักวิจัยชั้นนำแห่ง MIT Media Lab “พีพี-ดร.พัทน์ ภัทรนุธาพร”

เทคโนโลยี AI ส่งผลดีหรือผลเสียต่อมนุษย์? เจาะลึกมุมมองที่เกี่ยวกับแนวโน้มและผลกระทบจาก AI ไปกับดร.พัทน์ ภัทรนุธาพร (พีพี) นักวิจัยไทยแห่ง MIT Media Lab และ KBTG Fellow ที่จะมาแบ่งแ...