โมเดลภาษาขนาดใหญ่และ ‘AI’ ที่เป็นของคนไทยอย่างแท้จริงต้องมีชุดข้อมูลแบบเฉพาะของไทย ทั้งด้านวัฒนธรรมไปจนถึงบริบทต่างๆ ซึ่งสิ่งเหล่านี้คือหนึ่งในโปรเจกต์ที่ SCB 10X กำลังศึกษาและพัฒนาให้มีความพร้อมมากยิ่งขึ้น จากการพบจุดอ่อนของชุดข้อมูลภาษาไทยที่ยังขาดชุดข้อมูลที่มากเพียงพอต่อการใช้งานอย่างมีประสิทธิภาพ สู่จุดเริ่มต้นของ ‘LingThai’ โปรเจกต์พัฒนาชุดข้อมูลทางภาษาไทย
บทความนี้จึงขอพาไปเจาะลึกกับประเด็นนี้กันกับ คุณกสิมะ ธารพิพิธชัย, Entrepreneur in Residence, SCB 10X ที่ได้มาร่วมแชร์ประเด็นสำคัญอย่าง “Importance of Thai AI Efforts” ในงาน Techsauce Global Summit 2023 โดยอธิบายถึงความสำคัญของการพัฒนา AI ในไทย โดยเฉพาะความท้าทายในการพัฒนาโมเดลภาษาขนาดใหญ่ (Large Language Model: LLM) และวิวัฒนาการของโมเดลภาษาขนาดใหญ่จนมาถึงยุคของ Generative AI ที่กำลังร้อนแรง
นับตั้งแต่เทรนด์ของ AI-Generated Influencer ที่เผยแพร่บนแพลตฟอร์ม Social Media ต่างๆ สู่ ChatGPT เครื่องมือ AI ที่เรียกได้ว่าเติบโตเร็วมากที่สุดเป็นประวัติการณ์ ทำให้เราต่างได้เห็นถึงศักยภาพของ Generative AI ที่สร้างความแปลกใหม่และน่าตื่นเต้นได้อีกมากมายหลายด้าน อย่างเช่น Health Care, การศึกษา และวิศวกรรม
คุณกสิมะ ให้ความสำคัญถึง Language Model โดยได้เล่าถึงที่มาที่ไป กลไกการสร้าง ไปจนถึงสิ่งที่ทำให้เขาเชื่อว่าเรากำลังอยู่ในช่วงหัวเลี้ยวหัวต่อที่สำคัญสำหรับ AI ภาษาไทย ตัวอย่างเช่น โมเดลภาษาของ ChatGPT ที่สร้างขึ้นจากการทำงานและฝึกฝนจำนวนมากและใช้เวลายาวนาน
เดิมทีโดยทั่วไปโมเดล AI เป็นเพียงเครื่องมือเพื่อการทำนายคาดการณ์ผลที่อาศัยข้อมูลจำนวนมาก ซึ่งโมเดลภาษาเหล่านี้มีการใช้มาตั้งแต่ต้นศตวรรษที่ 20 มีการพัฒนาและทดลองกับกลไกที่เรียกว่า “N-Gram” ซึ่งเป็นโมเดลภาษาทางสถิติในระดับพื้นฐาน และก้าวหน้าต่อเนื่องไปจนถึงยุค 50s และ 60s ก็ได้เกิดแนวคิดของ Neural Networks หรือ AI ที่เลียนแบบการคิดของมนุษย์ที่เรารู้จักกันจนถึงทุกวันนี้
เมื่อเข้าสู่ยุค 90s และ 2010s ผู้คนก็เริ่มรู้จักกับโมเดลภาษาและ Neural Networks มากขึ้น และมาสู่ก้าวสำคัญที่เรียกว่า “Recurrent Neural Networks" ซึ่งเป็นสถาปัตยกรรมที่เป็นประโยชน์ต่อการสร้างโมเดลภาษาเหล่านี้ อย่างไรก็ตามก็ยังคงเป็นการประมวลผลภาษาที่เป็นไปตามลำดับทีละคำเท่านั้น ซึ่งยังคงเป็นอุปสรรคต่อการฝึกแบบจำลอง เพราะเมื่อใส่ข้อมูลเข้าไปจำนวนมากแต่สามารถประมวลผลได้เพียงเล็กน้อยแบบตามลำดับเท่านั้น
ในปี 2017 นักวิจัย Google และ University of Toronto ได้เผยถึงสถาปัตยกรรมใหม่ที่เรียกว่า “Transformer” และได้กลายเป็นสิ่งที่เรารู้จักกันดีในขณะนี้ คือ “T” ใน GPT (Generative Pre-Trained Transformer) รวมถึงมีการค้นพบที่สำคัญมากมายเกี่ยวกับ Transformer
และสิ่งสำคัญอย่างหนึ่งที่ต้องตระหนักถึง คือความสามารถในการฝึกแบบจำลองอย่างมีประสิทธิภาพ และตอนนี้เราสามารถทำได้ด้วย Transformer ที่สามารถใส่ข้อมูลเข้าไปในแบบจำลองที่มีความซับซ้อนมากขึ้นได้ และในปี 2018 ก็ได้มี GPT ตัวแรกและเริ่มมีการปรับขยายขนาดทั้งทรัพยากรสำหรับการคำนวณและขนาดข้อมูล จนมาถึงโมเดลภาษาขนาดใหญ่ (Large Language Model) ในวันนี้ และที่แท้จริงแล้วมีองค์ประกอบสำคัญมาจาก “สถาปัตยกรรม ข้อมูล และการประมวลผล”...
มีสถาปัตยกรรมที่สร้างความเปลี่ยนแปลงครั้งใหญ่อย่าง Transformer ที่ทำให้เราฝึกโมเดลที่ซับซ้อนขึ้นได้พร้อมกับค้นพบการทำงานอื่นๆ เช่น การเข้ารหัสด้วยภาพ (Visual Encoding) และกลไก Self-Attention เป็นต้น ซึ่งโมเดลเหล่านี้มีความซับซ้อนอย่างมากเนื่องจากต้องอาศัยข้อมูลจำนวนมหาศาล จึงเป็นช่วงเวลาที่สามารถเรียกได้ว่า “ข้อมูลคือขุมทรัพย์” ได้กลับมาอีกครั้ง โดยเฉพาะในยุคของ Gen AI ที่ต้องใช้ข้อมูลจำนวนมากในการฝึก
ดังนั้น กฎง่ายๆ ในการเพิ่มประสิทธิภาพของแบบจำลอง AI คือการเพิ่มจำนวนข้อมูลเข้าไปแบบทวีคูณ และองค์ประกอบสำคัญต่อมา คือการคำนวณ (Compute) ซึ่งปฏิเสธไม่ได้ว่าการฝึกโดยใช้ข้อมูลจำนวนมหาศาลนี้ก็ต้องอาศัยพลังการประมวลผลที่มากขึ้นเช่นกัน ซึ่งทุกวันนี้ก็ได้มีการทุ่มเงินไปเป็นจำนวนมาก และที่สำคัญสิ่งเหล่านี้ส่งผลกับเทคโนโลยีทั่วโลกด้วยเช่นกัน เนื่องจากมีทรัพยากรจำนวนมากที่ต้องนำมาใช้ในการฝึกแบบจำลอง แต่โดยส่วนใหญ่เป็นองค์กรหรือสถาบันขนาดใหญ่เท่านั้นที่สามารถสร้างแบบจำลองภาษาเหล่านี้ได้ ซึ่งเป็นรูปแบบของการรวมศูนย์
มีความพยายามมากมายทั่วโลกที่พยายามสนับสนุน AI ในหลากหลายภาษา แต่พวกเขาจำเป็นต้องให้ความสำคัญกับการจัดลำดับของตนเองก่อน เนื่องจากทรัพยากรตัวแปรที่เกี่ยวข้องทั้งเชื้อชาติ วัฒนธรรม และภาษาถิ่นของตน ซึ่งเรียกได้ว่าเป็นลักษณะการรวมศูนย์และมีผลกระทบกับการใช้งานภาษาอื่น ตัวอย่างเช่น ChatGPT สามารถใช้ภาษาไทยได้ตามปกติ แต่ก็ไม่มีประสิทธิภาพเท่าภาษาอังกฤษอย่างเห็นได้ชัดและค่อนข้างทำได้ช้ากว่ามาก ซึ่งเป็นเรื่องทางเทคนิค “Tokenization” ในแง่ของการประเมินประสิทธิภาพการทำงานของฮาร์ดแวร์ โดยทั่วไปภาษาอังกฤษ คือ 1.5 โทเคนต่อตัวอักษร แต่เนื่องจากวิธีการทำงานของแบบจำลองเหล่านี้ไม่สามารถใช้ได้แบบเดียวกันกับภาษาไทยที่เป็นหน่วยภาษาประเภท Multi-Byte ซึ่งอาจใช้ถึง 2 โทเคนต่อตัวอักษรขึ้นไป จึงทำงานได้ช้ากว่าภาษาอังกฤษถึงประมาณ 5 เท่า พร้อมกับมีข้อจำกัดอื่นๆ ของภาษาไทย
โมเดลภาษาส่วนใหญ่ฝึกด้วยภาษาอังกฤษ ดังนั้นเราจำเป็นต้องมีผู้ที่นำเสนอเกี่ยวกับผู้คน ประเทศ วัฒนธรรมและลักษณะเฉพาะของภาษาของไทย เพื่อสร้างระบบแบบจำลองความคิดในแบบของคนไทยและเพื่อเป็นการปกป้องภาษาและวัฒนธรรมของไทย จึงต้องมีแบบจำลองภาษาของเราเองขึ้นมา และมีความพยายามอย่างมากในการพัฒนาโมเดลภาษาของไทยจากหลากหลายองค์กร อย่างเช่นโครงการที่พัฒนาเป็น Open GPT สัญชาติไทยและสร้างขึ้นบนรากฐาน NLP มานานหลายปี รวมถึงอีกหลากหลายองค์กรที่ตระหนักถึงความสำคัญของการมีส่วนร่วมนี้ที่มีเป้าหมายคือการปรับปรุงประสิทธิภาพภาษาไทยในแบบจำลองโมเดลภาษาขนาดใหญ่ให้เป็นมาตรฐานสากลและในระดับท้องถิ่น
ข้อมูลของภาษาไทยเป็นภาษา “ทรัพยากรต่ำ” ซึ่งหมายความว่าเป็นข้อมูลที่มีคำอธิบายประกอบไม่มากพอสำหรับเครื่องมือและแบบจำลองใน NLP หรือระบบ Machine Learning และจากการอ้างอิงข้อมูลขององค์กร “Common Crawl” โครงการข้อมูลแบบเปิดที่มีจุดมุ่งหมายเพื่อรวบรวมข้อมูลอินเทอร์เน็ตให้ได้มากที่สุด ได้เผยแพร่การกระจายตัวของการใช้ภาษาต่างๆ โดยภาษาอังกฤษอยู่ที่ประมาณ 45% และภาษาไทยมีเพียง 0.4%. และอยู่อันดับที่ 26 ซึ่งค่อนข้างน่ากังวลหากเทียบกับจำนวนประชากรของประเทศที่อันดับใกล้เคียงกันอย่างภาษา Finnish และ Slovak
จากการเล็งเห็นถึงโอกาสและช่องโหว่ต่างๆ ของภาษาไทยในการพัฒนา AI ข้างต้นทั้งหมดนำมาสู่โครงการ ‘LingThai’ กับความพยายามเพิ่มคุณภาพและความพร้อมใช้งานของการเข้าถึงชุดข้อมูลของไทย ซึ่งคุณกสิมะ ได้ประกาศและแนะนำโครงการนี้ที่งาน Techsauce Global Summit 2023 พร้อมกล่าวเชิญและขอแรงสนับสนุนจากทุกภาคส่วนที่ต้องการมีส่วนร่วมกับการพัฒนาครั้งนี้
โดยปัจจุบัน LingThai มุ่งพัฒนา 2 กระบวนหลัก คือ ชุดข้อมูลสาธารณะ หรือ “Public Dataset” เป็นชุดข้อมูลสาธารณะที่ผลิตโดยชุมชน NLP (Natural Language Processing) และได้เริ่มเผยแพร่สู่สถาบันต่างๆ เพื่อค้นหาชุดข้อมูลที่เกี่ยวข้องและสามารถนำมาใช้สนับสนุนแพลตฟอร์มได้
กระบวนการต่อมา คือ “Data Labeling” หรือการระบุประเภทของข้อมูล ซึ่งเป็นอีกขั้นตอนที่สำคัญอย่างยิ่งสำหรับการสร้างแบบจำลองภาษาขนาดใหญ่ที่ทันสมัย โดยเฉพาะปัจจุบันยังไม่มีคำอธิบายประกอบข้อมูล (Annotated Data) ของคนไทยมากนัก
สำหรับผู้ที่ต้องการสนับสนุนและมีชุดข้อมูลสำคัญเหล่านี้สามารถติดต่อและลงทะเบียนได้ทาง LingThai หรือสามารถปรึกษาด้านชุดข้อมูลให้มีความพร้อมใช้ ตั้งแต่การแปลงเป็นระบบดิจิทัลไปจนถึงสัญญาและสิทธิ์การใช้งานข้อมูลได้กับทาง LingThai
นับว่าเป็นจุดเริ่มต้นครั้งสำคัญของอนาคต AI สัญชาติไทยและโครงการ LingThai ที่พยายามดำเนินการเพิ่มจำนวนชุดข้อมูลที่มีอยู่ให้มากขึ้นต่อไป และมีเป้าหมายส่งเสริมระบบนิเวศข้อมูลที่เปิดกว้างแบบสาธารณะ พร้อมกับสร้างการร่วมมือกันอย่างต่อเนื่อง ชมรายละเอียดเพิ่มเติมเกี่ยวกับ LingThai ได้ที่เว็บไซต์: https://lingthai.ai
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด