SCB 10X เปิดตัว “Typhoon Isan” โมเดล AI ภาษาอีสาน ก้าวแรกของ AI ไทยที่เข้าใจคนทุกภูมิภาค

ท่ามกลางการแข่งขันที่ดุเดือดในอุตสาหกรรม AI หลายครั้งเทคโนโลยีกลับมองข้ามผู้ใช้บางกลุ่ม โดยเฉพาะผู้ที่ใช้ภาษาถิ่นในชีวิตประจำวัน แนวคิด Inclusive AI’ ที่เข้าใจความหลากหลายทางภาษา เชื้อชาติ และวัฒนธรรม จึงกลายเป็นประเด็นสำคัญที่ธุรกิจยุคใหม่ไม่อาจละเลยได้

ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” SCB 10X ได้เปิดตัว Typhoon Isan โมเดลถอดเสียงภาษาอีสานที่สามารถถอดเสียงและสะกดคำได้อย่างเป็นระบบเป็นครั้งแรกของไทย พัฒนาเพื่อให้ AI เข้าใจคนท้องถิ่นอย่างแท้จริง โครงการนี้เกิดจากความร่วมมือของทีมวิจัย SCB 10X นักภาษาศาสตร์ ครู นักเรียน และชุมชนท้องถิ่น เพื่อยกระดับภาษาอีสานเข้าสู่โลกดิจิทัล ภายใต้วิสัยทัศน์ว่า “ภาษาอีสานไม่ใช่แค่สำเนียง แต่เป็นรากเหง้าทางเศรษฐกิจและวัฒนธรรม”

เนื่องจากประเทศไทยมีผู้ใช้ภาษาถิ่นจำนวนมาก โมเดล AI ที่เทรนจากภาษาไทยกลางเพียงอย่างเดียวมักไม่สามารถรองรับสำเนียงหรือคำเฉพาะของภาษาถิ่นได้อย่างถูกต้อง โดยเฉพาะในงานถอดเสียง (ASR) ซึ่งต้องการความแม่นยำสูง ช่องว่างนี้จึงกลายเป็นจุดเริ่มต้นของการพัฒนาโมเดลภาษาถิ่นโดยเฉพาะ

ภาษาอีสานในฐานะแรงขับเคลื่อนเศรษฐกิจ

ปัจจุบันมีผู้ใช้ภาษาอีสานกว่า 22 ล้านคน ถือเป็นกลุ่มผู้ใช้ใหญ่เป็นอันดับสองรองจากภาษาไทยกลาง และคิดเป็นหนึ่งในสามของประชากรประเทศ ภาคอีสานยังสร้างมูลค่าเศรษฐกิจกว่า 180,000 ล้านบาท หรือราว 10% ของ GDP ไทย และมีแรงงานจำนวนมากที่ใช้ภาษาอีสานในหลากหลายอุตสาหกรรม ทำให้ SCB 10X เลือกภาษาอีสานเป็นภาษาแรกในการพัฒนาโมเดลภาษาถิ่น

‘AI ใจอีสาน’ ที่ทุกคนต่อยอดได้

โครงการ Typhoon Isan คือส่วนหนึ่งของวิสัยทัศน์ใหญ่ของ Typhoon โมเดล AI สัญชาติไทยที่พัฒนาโดย SCB 10X เนื่องจากโมเดลแบบ One-size-fits-all ที่พัฒนาจากบริบทต่างประเทศมักไม่เหมาะกับผู้ใช้ชาวไทยทั้งในแง่ภาษา วัฒนธรรม และพฤติกรรม  ทีมวิจัยของ SCB 10X จึงพัฒนา Large Language Models (LLM) ที่ออกแบบมาเพื่อประเทศไทยโดยเฉพาะ และเปิดให้ทุกคนเข้าถึงในรูปแบบ Open-source รวมถึงโมเดลและข้อมูลวิจัยในโครงการ Typhoon Isan เพื่อเป็นรากฐานสำคัญของการสร้างนวัตกรรมดิจิทัลในประเทศ

โครงการนี้จึงเปิดโอกาสให้นักวิจัย นักพัฒนา Startup และธุรกิจไทยสามารถนำโมเดลไปดัดแปลง ประยุกต์ หรือสร้างบริการใหม่ ๆ ได้อย่างอิสระ ตั้งแต่ระบบบริการลูกค้า การศึกษา การแพทย์ การท่องเที่ยว ไปจนถึงคอนเทนต์เชิงสร้างสรรค์

โมเดล Typhoon Isan Series

ภายในงาน SCB 10X เปิดตัวผลงานวิจัยหลัก ได้แก่

  • Typhoon Isan ASR โมเดลถอดเสียงภาษาอีสานที่แม่นยำ เร็วกว่าคู่แข่ง 19 เท่า รองรับการถอดเสียงแบบเรียลไทม์ และมีต้นทุนต่ำ (ถอดเสียง 720 ชั่วโมง ประมาณ 50 บาท)
  • Typhoon Isan TTS โมเดลแปลงข้อความเป็นเสียงอีสานที่สังเคราะห์เสียงได้เป็นธรรมชาติ
  • ชุดข้อมูลภาษาอีสานแบบเปิด (Open Data) ซึ่งจัดทำอย่างเป็นระบบ ประกอบด้วย
    • Isan Speech Transcription Convention แนวทางมาตรฐานสำหรับการถอดเสียงภาษาอีสานเพื่องานด้านเทคโนโลยีเสียง
    • Isan Spelling Standard อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย
    • Isan Speech Corpus ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
    • Isan Phonetic Dictionary พจนานุกรมเชื่อมโยงคำกับรูปแบบการออกเสียงในภาษาอีสาน

แต่ละโมเดลสามารถทำงานร่วมกันได้ในรูปแบบนี้ โดยเมื่อผู้ใช้พูดภาษาอีสาน โมเดล ASR จะถอดเสียงออกมาเป็นข้อความ จากนั้นโมเดลจะประมวลผลความหมายและสร้างคำตอบที่เหมาะสม แล้วส่งให้โมเดล TTS แปลงกลับเป็นเสียงอีสานเพื่อตอบกลับทันที กระบวนการนี้ช่วยให้ AI โต้ตอบเป็นภาษาอีสานได้ครบทั้ง ‘ฟัง–เข้าใจ–พูด’

เบื้องหลังการสร้างโมเดลภาษาอีสานที่แทบจะเริ่มจากศูนย์

ทีม SCB 10X เปิดเผยว่าการพัฒนาโมเดล Typhoon Isan Series เรียกได้ว่าเริ่มต้นอย่างยากลำบาก ภาษาอีสานเป็นภาษาพูดที่ไม่มีมาตรฐานการเขียนชัดเจน จึงต้องทำงานร่วมกับนักภาษาศาสตร์และเจ้าของภาษาในการกำหนดโครงสร้างภาษา จำแนกเสียง หาลักษณะร่วมเพื่อให้ได้สำเนียงที่ครอบคลุม สร้างระบบสะกดคำแบบ 6 วรรณยุกต์ที่สอดคล้องกับการออกเสียงจริง และบันทึกเสียงคุณภาพสูงจากผู้พูดหลายพื้นที่ กระบวนการที่ละเอียดและเป็นระบบนี้ไม่เพียงช่วยพัฒนาความแม่นยำของโมเดล แต่ยังเป็นการเก็บรักษาภูมิปัญญาท้องถิ่นในรูปแบบข้อมูลดิจิทัลที่ต่อยอดได้ในระยะยาว

จากการเข้าใจภาษาอีสานสู่การใช้งานจริงในหลายอุตสาหกรรม

Typhoon Isan ไม่ใช่เพียงโครงการวิจัยด้านภาษาอีสาน แต่เป็นรากฐานของโซลูชันดิจิทัลที่สามารถนำไปใช้งานได้จริงในหลากหลายอุตสาหกรรม โดยถูกออกแบบให้ เชื่อมต่อกับระบบ AI อื่นได้ ทำให้ใช้งานได้อย่างยืดหยุ่น และทำหน้าที่เป็น Enabler ของภาษาอีสานในโลกดิจิทัล ตัวอย่างการใช้งาน ได้แก่

  • Voice AI Agent: เอเจนต์ตอบโต้แบบเรียลไทม์สำหรับงานคอลเซ็นเตอร์และบริการลูกค้าในพื้นที่อีสาน
  • Live Caption: ระบบสร้างซับไตเติล/ข้อความอัตโนมัติจากเสียงอีสานสำหรับงานประชุม ไลฟ์สด หรือคอนเทนต์วิดีโอ
  • Healthcare & Telemedicine: ช่วยรับข้อมูลอาการผู้ป่วยเป็นอีสาน และแปลเป็นไทยกลางเพื่อลดความคลาดเคลื่อนทางการสื่อสาร
  • Banking Service: ระบบตอบคำถามและให้ข้อมูลบัญชีหรือผลิตภัณฑ์ทางการเงินด้วยสำเนียงอีสาน
  • Isan ↔ Thai Translation: ใช้ถอด–แปล–สังเคราะห์เสียงเพื่อให้การสื่อสารข้ามภูมิภาคราบรื่น
  • Creative Media: ผลิตเสียงอีสานสำหรับวิดีโอ โฆษณา และเนื้อหาสื่อสารต่าง ๆ 
  • AI Plug-in Module: นำ Typhoon ASR/TTS ไปประกอบกับโมเดล LLM เจ้าอื่น เพื่อเพิ่มความสามารถด้านภาษาอีสานในบริการที่มีอยู่แล้ว

Typhoon Isan จึงไม่ใช่เพียงโมเดลภาษาอีสาน แต่เป็นก้าวสำคัญของการพัฒนา AI ที่เข้าใจผู้ใช้ไทยทุกมิติ ตั้งแต่วัฒนธรรม ภาษา ไปจนถึงวิถีชีวิต พร้อมต่อยอดสู่ Thai AI Ecosystem ที่แข็งแรง และผลักดันให้ไทยมีที่ยืนบนเวทีเทคโนโลยีระดับโลกอย่างแท้จริง

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

SCBX แจ้งกำไร Q1/2026 ที่ 10,195 ล้านบาท ลดลง 18.5% รับแรงกดดันดอกเบี้ยนโยบายขาลง แต่รายได้ค่าธรรมเนียมพุ่งถึง 17.7%

เอสซีบีเอกซ์แจ้งกำไรสุทธิไตรมาส 1/2569 ที่ 10,195 ล้านบาท ลดลง 18.5% YoY จากรายได้ดอกเบี้ยสุทธิหดตัวตามดอกเบี้ยนโยบาย แต่ค่าธรรมเนียมโต 17.7% NPL ลดเหลือ 3.23% พร้อมเปิดตัวแบงก์เอก...

Responsive image

นักวิทย์ฯ โหลดจีโนมสมบูรณ์ชุดแรก เข้าควอนตัมคอมพิวเตอร์ได้แล้ว! ตั้งเป้าวิเคราะห์พันธุกรรมมนุษย์เร็วกว่าเครื่องมือเดิม 100 เท่า

ทีมวิจัยจาก Wellcome Sanger Institute ร่วมกับ Oxford, Cambridge และ Melbourne โหลดจีโนม Hepatitis D เข้าสู่ควอนตัมคอมพิวเตอร์ IBM Heron 156 คิวบิตเป็นครั้งแรก ตั้งเป้าวิเคราะห์พันจ...

Responsive image

Amazon ลงทุนเพิ่ม 25,000 ล้านดอลลาร์ใน Anthropic แลกสัญญาคลาวด์ AWS 10 ปี มูลค่ากว่า 1 แสนล้านดอลลาร์

Amazon ประกาศลงทุนเพิ่มใน Anthropic สูงสุด 25,000 ล้านดอลลาร์ แลกสัญญาคลาวด์ AWS 10 ปี มูลค่ากว่า 100,000 ล้านดอลลาร์ พร้อมกำลังประมวลผล 5 กิกะวัตต์จากชิป Trainium และย้าย Claude P...