สิ่งที่ถูกพูดถึงไม่น้อยไปกว่าคำว่า ‘AI’ นั่นคือ ‘Corpus’ เป็นคำที่ผู้บริหารจากบริษัทเทคโนโลยีใช้บ่อยในช่วงนี้ ไม่ว่าจะเป็น CEO ของ Reddit, Jimmy Wales จาก Wikipedia หรือแม้แต่ Bill Gates ผู้ก่อตั้ง Microsoft ก็ตาม ซึ่งถ้าพูดถึงในแง่ของเทคโนโลยี AI คำว่า Corpus หมายถึง ‘คลังข้อมูล’ ซึ่งเป็นสิ่งที่รวบรวมข้อมูลที่ใช้ในการฝึกฝน AI
ดังนั้นในยุคแห่ง AI คำว่า Corpus จึงเป็นอีกหนึ่งคำสำคัญที่ควรรู้จักในยุคนี้เลย บทความนี้ Techsauce จะพาไปทำความรู้จักกับเจ้าคลังข้อมูล AI กัน
Corpus คือ คลังข้อมูลของ AI ที่ผู้สร้างใช้เพื่อรวบรวมข้อมูลต่าง ๆ และนำมาฝึกฝนเพิ่มความสามารถให้กับ AI ถ้าเปรียบเทียบง่าย ๆ Corpus ก็เหมือนหนังสือที่รวบรวมข้อมูลเฉพาะทางด้านใดด้านหนึ่ง ซึ่งนำมาให้ AI อ่านเพื่อให้เรียนรู้และฝึกฝนให้เชี่ยวชาญในเรื่องนั้น ๆ นั่นเอง
AI แต่ละตัวก็จะมี Corpus ที่รวบรวมข้อมูลเฉพาะด้านของตัวเองไว้ ซึ่งก็จะแตกต่างกันไปในแต่ละตัว และสำหรับประเภทของข้อมูลทางผู้สร้าง AI ก็จะเป็นคนเลือกเอง ดังนั้น ทักษะและความรู้ที่ AI เชี่ยวชาญก็จะขึ้นอยู่กับ Corpus ที่ผู้สร้างเลือกให้
Corpus จึงมีความสำคัญต่อ AI มาก เพราะเป็นตัวที่กำหนดความสามารถ ความรู้ ความเชี่ยวชาญให้กับ AI แต่ละตัวนั่นเอง
ไม่ได้มีการจัดประเภทของ Copus ไว้อย่างชัดเจน เพราะมันมีได้หลายประเภทมาก ๆ เนื่องจากประเภทของ Corpus จะขึ้นอยู่กับว่า ผู้สร้างต้องการที่จะให้ AI เรียนรู้ข้อมูลประเภทไหน เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ ดังนั้น ประเภทของ Corpus ก็จะแตกต่างกันไปขึ้นอยู่กับวัตถุประสงค์และสิ่งที่ผู้สร้างต้องการให้ AI ทำ เช่น
1. Midjourney ซึ่งเป็นแพลตฟอร์มศิลปะที่ใช้ AI สร้างรูปภาพได้ด้วยการพิมพ์คำสั่งในรูปแบบข้อความ ดังนั้น AI ใน Midjourney จึงจำเป็นต้องเรียนรู้ 2 สิ่ง คือ รูปภาพและคำศัพท์ที่สอดคล้องกัน เช่น คุณสั่งให้ Midjourney สร้างภาพน้ำตกที่สวยงาม
ถ้า AI จะสร้างรูปภาพน้ำตกออกมาได้ มันจำเป็นต้องเห็นภาพน้ำตกจำนวนมาก และเรียนรู้ว่าคำว่า ‘น้ำตก’ ดังนั้นใน Copus ของ Midjourney AI จึงต้องรวบรวมรูปภาพรูปภาพน้ำตกจำนวนมาก และคำศัพท์ที่สอดคล้องหรือสื่อความได้ตรงกับรูปภาพน้ำตก
2. ChatGPT เป็น AI ประเภทหนึ่งที่เรียกว่า Large Language Model (LLM) ซึ่งมีความสามารถในการสร้างรูปแบบการสนทนาได้คล้ายกับภาษาที่คนพูดคุย นอกจากนี้ยังสามารถตอบคำถามที่ซับซ้อนหรือแม้แต่สร้างผลงาน Creative เช่น เรื่องสั้น บทความ รวมถึงยังมีความสามารถในการเขียนโปรแกรม
การที่ ChatGPT มีความสามารถรอบด้านขนาดนี้ก็ขึ้นอยู่กับ Corpus ที่ใช้ในการฝึกฝนเช่นเดียวกัน ในกรณีของ AI ตัวนี้ Corpus ของมันประกอบด้วยชุดข้อความขนาดใหญ่มากมายจากอินเทอร์เน็ต เช่น ข้อมูลจากเว็บไซต์ หนังสือ บทความ งานวิจัย การสนทนา แพลตฟอร์มโซเชียลมีเดีย หรือแม้แต่บทความจาก Wikipedia
การที่มี Corpus ที่รวบรวมข้อมูลจำนวนมหาศาลไว้ ทำให้ ChatGPT มีความสามารถรอบด้าน แต่ถ้าสังเกตดี ๆ ตัว ChatGPT ไม่สามารถสร้างหรือทำความเข้าใจรูปภาพได้ นั่นก็เป็นเพราะว่า Corpus ของ AI ตัวนี้ออกแบบมาให้ทำงานกับข้อความ แต่ไม่มีการป้อนข้อมูลเกี่ยวกับรูปภาพลงใน Corpus นั่นเอง
จากตัวอย่างเหล่านี้ทำให้เห็นชัดเจนว่า Corpus สามารถประกอบด้วยข้อมูลหลากหลายประเภท และหลากหลายด้าน การจำแนกประเภทของ Corpus จึงเป็นสิ่งที่เป็นไปได้ยาก รวมถึงยังตอกย้ำว่า การออกแบบ Corpus นั้นมีผลอย่างมากต่อความสามารถและความฉลาดของ AI หากเลือกข้อมูลที่ถูกต้องเหมาะสม คุณก็สามารถฝึก AI ให้ทำงานเฉพาะ หรือเลียนแบบลักษณะบางอย่างได้
เมื่อ Corpus มีข้อมูลมากเท่าไหร่ AI ก็จะยิ่งฉลาดมากขึ้นเท่านั้น ถ้าหากข้อมูลที่อยู่ใน Corpus มีเนื้อหาที่มีลิขสิทธิ์และถูกนำมาใช้โดยไม่ได้รับอนุญาต หลาย ๆ ก็ยังกังวลว่ามันจะผิดกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา
ถ้าพูดถึงกฎหมายลิขสิทธิ์และทรัพย์สินทางปัญญา กฎหมายคุ้มครองสิทธิ์ของผู้สร้างสรรค์และเจ้าของผลงานต้นฉบับ โดยกำหนดให้เจ้าของลิขสิทธิ์เป็นผู้มีสิทธิ์แต่เพียงผู้เดียว ในงานอย่างเช่น หนังสือ เพลง หรือรูปภาพ แต่การใช้ AI ที่ถูกฝึกด้วยข้อมูลเหล่านี้ ไม่ได้ลอกเลียนแบบงานของต้นฉบับ
เพียงแต่เลียนแบบสไตล์หรือใช้องค์ประกอบจากมัน เช่น การสอน AI วาดรูปจากรูปวาดของศิลปินคนหนึ่ง หรือการสอน AI แต่งเพลงจากเพลงต้นฉบับของ Rihanna “การกระทำแบบนี้ผิดกฎหมายหรือไม่ ?” ยังคง เป็นประเด็นที่ศาลทั่วโลกถกเถียงกันอยู่
เนื่องจากในปัจจุบันยังไม่ข้อกำหนดหรือกฎหมายที่มาควบคุม AI อย่างเป็นทางการ แต่ตอนนี้รัฐบาลในหลาย ๆ ประเทศก็เริ่มร่างกฎหมายควบคุม AI กันแล้ว เช่น
เมื่อมีการพูดถึงประเด็นเรื่องลิขสิทธิ์ ก็เหมือนเป็นการเปิดช่องทางให้กับเหล่า Creator ที่มีผลอยู่จำนวนมากสามารถนำผลงานเหล่านั้นมาขายให้กับผู้สร้าง AI ใช้ในการป้อนข้อมูลใส่ Corpus เช่น จิตรกรที่มีรูปวาดมากมายก็สามารถนำงานส่วนหนึ่งมาขาย เพื่อเป็นรายได้เสริม หรือแม้แต่นักร้องก็สามารถอัดเสียงของพวกเขามาขายได้เช่นเดียวกัน
ในอนาคตเมื่อบริษัทต่าง ๆ เริ่มใช้เทคโนโลยี AI มากขึ้น Corpus ก็อาจกลายเป็นเครื่องมือชิ้นสำคัญของยุค และอาจสร้างอุตสาหกรรมใหม่ อย่างการขายงานเพื่อนำไปพัฒนา Corpus ในอีกไม่กี่เดือนหรือไม่กี่ปีข้างหน้าเราคงจะได้ยินคงพูดถึงคำว่า “Corpus/Corpora” กันมากขึ้นเมื่อมีประเด็นที่เกี่ยวข้องกับ AI
อ้างอิง: fastcompany
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด