ท่ามกลางการแข่งขันที่ดุเดือดในอุตสาหกรรม AI หลายครั้งเทคโนโลยีกลับมองข้ามผู้ใช้บางกลุ่ม โดยเฉพาะผู้ที่ใช้ภาษาถิ่นในชีวิตประจำวัน แนวคิด ‘Inclusive AI’ ที่เข้าใจความหลากหลายทางภาษา เชื้อชาติ และวัฒนธรรม จึงกลายเป็นประเด็นสำคัญที่ธุรกิจยุคใหม่ไม่อาจละเลยได้

ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” SCB 10X ได้เปิดตัว Typhoon Isan โมเดลถอดเสียงภาษาอีสานที่สามารถถอดเสียงและสะกดคำได้อย่างเป็นระบบเป็นครั้งแรกของไทย พัฒนาเพื่อให้ AI เข้าใจคนท้องถิ่นอย่างแท้จริง โครงการนี้เกิดจากความร่วมมือของทีมวิจัย SCB 10X นักภาษาศาสตร์ ครู นักเรียน และชุมชนท้องถิ่น เพื่อยกระดับภาษาอีสานเข้าสู่โลกดิจิทัล ภายใต้วิสัยทัศน์ว่า “ภาษาอีสานไม่ใช่แค่สำเนียง แต่เป็นรากเหง้าทางเศรษฐกิจและวัฒนธรรม”
เนื่องจากประเทศไทยมีผู้ใช้ภาษาถิ่นจำนวนมาก โมเดล AI ที่เทรนจากภาษาไทยกลางเพียงอย่างเดียวมักไม่สามารถรองรับสำเนียงหรือคำเฉพาะของภาษาถิ่นได้อย่างถูกต้อง โดยเฉพาะในงานถอดเสียง (ASR) ซึ่งต้องการความแม่นยำสูง ช่องว่างนี้จึงกลายเป็นจุดเริ่มต้นของการพัฒนาโมเดลภาษาถิ่นโดยเฉพาะ
ปัจจุบันมีผู้ใช้ภาษาอีสานกว่า 22 ล้านคน ถือเป็นกลุ่มผู้ใช้ใหญ่เป็นอันดับสองรองจากภาษาไทยกลาง และคิดเป็นหนึ่งในสามของประชากรประเทศ ภาคอีสานยังสร้างมูลค่าเศรษฐกิจกว่า 180,000 ล้านบาท หรือราว 10% ของ GDP ไทย และมีแรงงานจำนวนมากที่ใช้ภาษาอีสานในหลากหลายอุตสาหกรรม ทำให้ SCB 10X เลือกภาษาอีสานเป็นภาษาแรกในการพัฒนาโมเดลภาษาถิ่น
โครงการ Typhoon Isan คือส่วนหนึ่งของวิสัยทัศน์ใหญ่ของ Typhoon โมเดล AI สัญชาติไทยที่พัฒนาโดย SCB 10X เนื่องจากโมเดลแบบ One-size-fits-all ที่พัฒนาจากบริบทต่างประเทศมักไม่เหมาะกับผู้ใช้ชาวไทยทั้งในแง่ภาษา วัฒนธรรม และพฤติกรรม ทีมวิจัยของ SCB 10X จึงพัฒนา Large Language Models (LLM) ที่ออกแบบมาเพื่อประเทศไทยโดยเฉพาะ และเปิดให้ทุกคนเข้าถึงในรูปแบบ Open-source รวมถึงโมเดลและข้อมูลวิจัยในโครงการ Typhoon Isan เพื่อเป็นรากฐานสำคัญของการสร้างนวัตกรรมดิจิทัลในประเทศ
โครงการนี้จึงเปิดโอกาสให้นักวิจัย นักพัฒนา Startup และธุรกิจไทยสามารถนำโมเดลไปดัดแปลง ประยุกต์ หรือสร้างบริการใหม่ ๆ ได้อย่างอิสระ ตั้งแต่ระบบบริการลูกค้า การศึกษา การแพทย์ การท่องเที่ยว ไปจนถึงคอนเทนต์เชิงสร้างสรรค์
ภายในงาน SCB 10X เปิดตัวผลงานวิจัยหลัก ได้แก่
แต่ละโมเดลสามารถทำงานร่วมกันได้ในรูปแบบนี้ โดยเมื่อผู้ใช้พูดภาษาอีสาน โมเดล ASR จะถอดเสียงออกมาเป็นข้อความ จากนั้นโมเดลจะประมวลผลความหมายและสร้างคำตอบที่เหมาะสม แล้วส่งให้โมเดล TTS แปลงกลับเป็นเสียงอีสานเพื่อตอบกลับทันที กระบวนการนี้ช่วยให้ AI โต้ตอบเป็นภาษาอีสานได้ครบทั้ง ‘ฟัง–เข้าใจ–พูด’
ทีม SCB 10X เปิดเผยว่าการพัฒนาโมเดล Typhoon Isan Series เรียกได้ว่าเริ่มต้นอย่างยากลำบาก ภาษาอีสานเป็นภาษาพูดที่ไม่มีมาตรฐานการเขียนชัดเจน จึงต้องทำงานร่วมกับนักภาษาศาสตร์และเจ้าของภาษาในการกำหนดโครงสร้างภาษา จำแนกเสียง หาลักษณะร่วมเพื่อให้ได้สำเนียงที่ครอบคลุม สร้างระบบสะกดคำแบบ 6 วรรณยุกต์ที่สอดคล้องกับการออกเสียงจริง และบันทึกเสียงคุณภาพสูงจากผู้พูดหลายพื้นที่ กระบวนการที่ละเอียดและเป็นระบบนี้ไม่เพียงช่วยพัฒนาความแม่นยำของโมเดล แต่ยังเป็นการเก็บรักษาภูมิปัญญาท้องถิ่นในรูปแบบข้อมูลดิจิทัลที่ต่อยอดได้ในระยะยาว
Typhoon Isan ไม่ใช่เพียงโครงการวิจัยด้านภาษาอีสาน แต่เป็นรากฐานของโซลูชันดิจิทัลที่สามารถนำไปใช้งานได้จริงในหลากหลายอุตสาหกรรม โดยถูกออกแบบให้ เชื่อมต่อกับระบบ AI อื่นได้ ทำให้ใช้งานได้อย่างยืดหยุ่น และทำหน้าที่เป็น Enabler ของภาษาอีสานในโลกดิจิทัล ตัวอย่างการใช้งาน ได้แก่
Typhoon Isan จึงไม่ใช่เพียงโมเดลภาษาอีสาน แต่เป็นก้าวสำคัญของการพัฒนา AI ที่เข้าใจผู้ใช้ไทยทุกมิติ ตั้งแต่วัฒนธรรม ภาษา ไปจนถึงวิถีชีวิต พร้อมต่อยอดสู่ Thai AI Ecosystem ที่แข็งแรง และผลักดันให้ไทยมีที่ยืนบนเวทีเทคโนโลยีระดับโลกอย่างแท้จริง
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด