Google จับมือ AI Singapore ยกระดับชุดข้อมูลฝึกโมเดล LLM ครอบคลุมภาษาไทย | Techsauce

Google จับมือ AI Singapore ยกระดับชุดข้อมูลฝึกโมเดล LLM ครอบคลุมภาษาไทย

AI Singapore (AISG) และ ทีมวิจัยของ Google ได้ริเริ่ม Project SEALD (Southeast Asian Languages in One Network Data) ซึ่งเป็นความร่วมมือด้านการวิจัยเพื่อยกระดับชุดข้อมูลที่สามารถใช้ในการฝึก พัฒนา และประเมินโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ในภาษาต่างๆ ที่ใช้พูดในเอเชียตะวันออกเฉียงใต้ ความร่วมมือนี้มุ่งที่จะปรับปรุงการรับรู้บริบททางวัฒนธรรมและความสามารถของโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และการนำไปต่อยอดเพื่อสร้างประโยชน์ให้กับสังคมในวงกว้างทั่วทั้งภูมิภาค

การพัฒนาโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ให้มีความครอบคลุมยิ่งขึ้น

ในเบื้องต้น Project SEALD จะครอบคลุมภาษาไทย อินโดนีเซีย ทมิฬ ฟิลิปปินส์ และพม่า โดยการวิจัยภายใต้โครงการนี้จะช่วยสร้างคลังข้อมูลที่หลากหลายและมีคุณภาพสูงของภาษาที่ใช้พูดในเอเชียตะวันออกเฉียงใต้เพื่อสนับสนุนการฝึกโมเดลต่างๆ ที่อยู่ภายใต้ SEA-LION (Southeast Asian Languages in One Network) ซึ่งเป็นโครงการริเริ่มของ AISG ในการพัฒนากลุ่มโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกล่วงหน้าและปรับแต่งคำสั่งมาโดยเฉพาะเพื่อให้สามารถนำเสนอบริบททางวัฒนธรรมและความแตกต่างทางภาษาในเอเชียตะวันออกเฉียงใต้ได้ดียิ่งขึ้น รวมถึงโมเดลอื่นๆ ที่เป็นประโยชน์ต่อผู้ใช้ในเอเชียตะวันออกเฉียงใต้

ความร่วมมือระหว่าง AISG และ ทีมวิจัยของ Google ในเอเชียแปซิฟิก ภายใต้ Project SEALD ครอบคลุมในด้านต่างๆ ดังนี้ 

  • การพัฒนาโมเดลสำหรับการแปลทั่วไปและการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่
  • การสร้างแนวทางปฏิบัติแนะนำสำหรับชุดข้อมูลการปรับแต่งคำสั่ง
  • การสร้างเครื่องมือสำหรับการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่ในวงกว้าง และ
  • การเผยแพร่สูตรสำหรับการฝึกล่วงหน้าสำหรับภาษาต่างๆ ในเอเชียตะวันออกเฉียงใต้

AISG และ Google จะเผยแพร่ชุดข้อมูลและเอาต์พุตจาก Project SEALD ในรูปแบบโอเพนซอร์สเพื่อพัฒนาความก้าวหน้าของระบบนิเวศโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และส่งเสริมความเชี่ยวชาญระดับภูมิภาคที่แข็งแกร่ง

นอกจากนี้ Project SEALD ยังจะร่วมมือกับพาร์ทเนอร์ทั้งจากภาควิชาการ ภาคอุตสาหกรรม และภาครัฐ ในรูปแบบต่างๆ ซึ่งรวมถึงการทำงานร่วมกับภาคอุตสาหกรรมในการรวบรวม ดูแลจัดการ และตรวจสอบคุณภาพข้อมูล การร่วมมือกับสถาบันการศึกษาในประเทศต่างๆ ในเอเชียตะวันออกเฉียงใต้เพื่อใช้เทคนิคที่ล้ำสมัยในการประเมินและการเปรียบเทียบ และการร่วมมือกับผู้มีส่วนเกี่ยวข้องของภาครัฐในการส่งเสริมการพัฒนาต่อยอดเพื่อสาธารณประโยชน์

การพัฒนาความก้าวหน้าด้านโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้

เพื่อเป็นการต่อยอดความร่วมมือในโครงการนี้ AISG จึงได้ร่วมมือกับ Google Cloud ในการทำให้โมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION พร้อมใช้งานบน Model Garden บน Vertex AI ของ Google Cloud ซึ่งช่วยให้องค์กรต่างๆ สามารถเข้าถึงโมเดลของบุคคลที่หนึ่งและบุคคลที่สาม รวมถึงโมเดลแบบเปิด ที่มีคุณลักษณะตรงตามมาตรฐานด้านคุณภาพและความปลอดภัยขององค์กรที่เข้มงวดของ Google Cloud องค์กรต่างๆ สามารถใช้เครื่องมือที่ออกแบบมาเพื่อองค์กรผ่านทาง Vertex AI เพื่อปรับแต่งโมเดลเหล่านี้ได้อย่างง่ายดาย สามารถนำไปใช้งานตามที่ต้องการ และผสานรวมเข้ากับแอปพลิเคชันของตน นอกจากนี้ AISG จะยังคงเปิดให้ใช้งานโมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION บน Hugging Face ซึ่งได้ร่วมมือกับ Google Cloud เพื่อช่วยให้นักพัฒนาซอฟต์แวร์ฝึก ปรับแต่ง และให้บริการโมเดลแบบเปิดได้อย่างรวดเร็วและคุ้มค่า 

ไม่เพียงเท่านี้ AISG ยังได้นำร่องความร่วมมือกับประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ตัวอย่างเช่น AISG ได้ร่วมมือกับพาร์ทเนอร์ในประเทศไทย ฟิลิปปินส์ และอินโดนีเซีย เพื่อสร้างทรัพยากรด้านไวยากรณ์และอรรถศาสตร์ของภาษาในระดับภูมิภาค นอกจากนี้ AISG ยังได้ลงนามในบันทึกข้อตกลงความร่วมมือ (Memorandum of Understanding - MOU) หรือหนังสือแสดงเจตจำนง (Letter of Intent - LOI) กับหน่วยงานต่างๆ ในอินโดนีเซีย มาเลเซีย และเวียดนาม ในการพัฒนาชุดข้อมูลและแอปพลิเคชันสำหรับโมเดลภาษาขนาดใหญ่ในระดับภูมิภาค 

ทีมวิจัยของ Google ในเอเชียแปซิฟิกเองก็มีโครงการส่งเสริมความครอบคลุมของโมเดลภาษาขนาดใหญ่ที่คล้ายคลึงกันนี้ ซึ่งกำลังดำเนินการอยู่ในประเทศอินเดียภายใต้ความร่วมมือกับสถาบันวิทยาศาสตร์แห่งอินเดีย (Indian Institute of Science) ผ่านทาง Project Vaani ซึ่งเป็นโครงการริเริ่มที่รวบรวม ถอดเสียง และจัดหาข้อมูลเสียงแบบโอเพนซอร์สจากทั่วทั้ง 773 อำเภอของอินเดีย

โควทจากพาร์ทเนอร์หลักของโครงการ 

“Google ภูมิใจที่ได้ร่วมมือกับ AISG เพื่อส่งเสริมและผลักดันการพัฒนาโมเดล AI ในสิงคโปร์และประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ด้วยการมุ่งเน้นไปที่ภาษาที่พูดและใช้ในภูมิภาค และความเข้าใจทางวัฒนธรรม Project SEALD จะช่วยพัฒนาคลังข้อมูลที่มีอยู่และเกณฑ์มาตรฐานการประเมินผลสำหรับภาษาเหล่านี้อย่างมีนัยสำคัญ ซึ่งจะช่วยเปิดโอกาสใหม่ๆ และทำให้ AI ครอบคลุม เข้าถึงได้ และมีประโยชน์มากขึ้นสำหรับทุกคนและธุรกิจต่างๆ ทั่วทั้งภูมิภาคนี้" – Yolyn Ang รองประธานฝ่ายพันธมิตรด้านความรู้และข้อมูลของ Google ประจำภูมิภาคเอเชียแปซิฟิก 

“โครงการโมเดลภาษาขนาดใหญ่ SEA-LION ให้ความสำคัญกับการสร้างชุมชนและระบบนิเวศที่มีการทำงานร่วมกันอย่างต่อเนื่องเพื่อยกระดับคุณภาพของคลังข้อมูลของ SEA-LION และพัฒนาขีดความสามารถของ SEA-LION อย่างต่อเนื่อง เราดีใจที่ตอนนี้ Google ได้ร่วมเป็นส่วนสำคัญของระบบนิเวศของ SEA-LION และเราตั้งตาที่จะได้ร่วมมือกับ Google ในการสร้างชุดข้อมูลที่ดียิ่งขึ้นผ่านทาง Project SEALD เพื่อประโยชน์ของชุมชนโดยรวม” – Leslie Teo ผู้อำนวยการอาวุโสฝ่ายผลิตภัณฑ์ AI ของ AISG

"สถาบันวิทยสิริเมธี (VISTEC) รู้สึกยินดีเป็นอย่างยิ่งที่ได้เป็นส่วนหนึ่งของการพัฒนาการประมวลผลภาษาธรรมชาติ (Natural Language Processing - NLP) ในอาเซียนภายใต้ Project SEALD ซึ่งเป็นกลไกสำคัญในการทำงานร่วมกันเพื่อกำหนดทิศทางเชิงกลยุทธ์สำหรับชุมชน NLP ที่หลากหลายของเราให้เป็นหนึ่งเดียว Project SEALD จะช่วยลดข้อจำกัดด้านทรัพยากรสำหรับการผนวกรวมภาษาที่ใช้ในเอเชียตะวันออกเฉียงใต้เข้ากับนวัตกรรม AI ด้วยการนำเสนอโมเดลภาษาที่ได้รับการฝึกล่วงหน้า ชุดข้อมูล และเกณฑ์มาตรฐานใหม่ๆ VISTEC ภูมิใจที่ได้เป็นพาร์ทเนอร์อย่างเป็นทางการของ Project SEALD และเราพร้อมที่จะให้การสนับสนุนความเชี่ยวชาญของเราในด้านการประมวลผลภาษาธรรมชาติแก่โครงการนี้อย่างเต็มที่” – รศ.ดร.สรณะ นุชอนงค์ คณบดีสำนักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ สถาบันวิทยสิริเมธี (VISTEC) ประเทศไทย 

เชิญชวนองค์กรต่างๆ ที่สนใจเข้าร่วม Project SEALD

มาร่วมกันกำหนดอนาคตของ AI ในเอเชียตะวันออกเฉียงใต้ ไปพร้อมๆ กับ Google และ AISG เพื่อยกระดับโมเดลภาษาขนาดใหญ่ระดับภูมิภาค และสร้างสรรค์โซลูชันด้านภาษาที่ตอบโจทย์ความต้องการของผู้คนในภูมิภาคนี้ ความเชี่ยวชาญของนักวิจัย นักพัฒนาซอฟต์แวร์ และธุรกิจต่างๆ เป็นสิ่งจำเป็นต่อการขับเคลื่อนนวัตกรรมในด้านนี้ หากท่านสนใจเข้าร่วม Project SEALD สามารถติดต่อเราได้ที่ [email protected]

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

CHANGAN Automobile เปิดตัว NEVO E07 : SUV พร้อมฟังก์ชันกระบะเปิดท้ายในงาน “ปักกิ่ง ออโต้ โชว์ 2024”

CHANGAN เปิดตัว NEVO E07 ในงานแสดงรถยนต์นานาชาติปักกิ่งครั้งที่ 18 ซึ่งเป็นยานพาหนะแปลงโฉมคันแรกของโลก ที่ผลิตขึ้นเป็นจำนวนมาก NEVO E07 เป็นรถยนต์รุ่นใหม่คันแรกของบริษัทในโฉม SUV ...

Responsive image

ลาออกแล้ว ไปทำงานกับคู่แข่งได้ สหรัฐฯ ออกกฎใหม่ห้ามบริษัททำสัญญา Non Compete

ลาออกแล้ว ไปทำงานบริษัทคู่แข่งได้ สหรัฐฯ เตรียมใช้กฎใหม่ ห้ามบริษัททำสัญญา Non Compete มองปิดโอกาสคนทำงาน ฉุดรั้งเศรษฐกิจประเทศ...

Responsive image

Money20/20 Asia ยกระดับวงการฟินเทคเอเชีย ยักษ์ใหญ่ตบเท้าเข้าร่วมงานคับคั่ง

เปิดตัวอย่างเป็นทางการแล้วสำหรับงาน Money20/20 Asia ครั้งแรกที่ประเทศไทยและเอเชีย ณ ศูนย์การประชุมแห่งชาติสิริกิติ์ที่กรุงเทพฯ ตั้งแต่วันที่ 23 - 25 เมษายน 2567 งานทยกระดับอุตสาหกร...