
กลุ่มเอสซีบีเอกซ์ (SCBX) ส่งผลงานวิจัยด้าน AI รวม 5 ฉบับ ผ่านการตอบรับใน 4 เวทีประชุมวิชาการชั้นนำระดับโลก ได้แก่ ACL 2026 (Main Conference), EACL 2026 (Main Conference), ICLR 2026 Workshop ชื่อ Principled Design for Trustworthy AI และ ICLR 2026 Blogposts Track
ความสำเร็จครั้งนี้เกิดจากทีมนักวิจัยในกลุ่ม SCBX และ SCB DataX โดยมีแกนหลักอยู่ที่การพัฒนา AI ให้ตอบโจทย์การใช้งานจริงในบริบทไทยมากขึ้น ตั้งแต่โมเดลภาษาที่เข้าใจภาษาไทยดีขึ้น, มาตรฐานวัดความปลอดภัยของ AI สำหรับสังคมไทย, การประเมินเสียงด้วย Large Audio Models ไปจนถึงการศึกษาวิธีทำให้ LLM คิดและให้เหตุผลได้ดีขึ้นระหว่างการใช้งาน
เวทีอย่าง ACL และ EACL ถือเป็นเวทีสำคัญของสาขา Natural Language Processing หรือ NLP ซึ่งเป็นรากฐานของ AI ด้านภาษา ส่วน ICLR เป็นหนึ่งในเวทีหลักของวงการ Machine Learning และ Deep Learning ที่บริษัทเทคโนโลยีระดับโลกอย่าง Google, Microsoft, Amazon และ Apple ส่งผลงานวิจัยเข้าร่วมเป็นประจำ
ผลงานทั้ง 5 ฉบับของ SCBX แบ่งออกได้เป็น 3 ทิศทางหลัก
ทั้ง 3 ทิศทางนี้เชื่อมโยงกับโจทย์เดียวกัน คือการนำ AI ไปใช้ในภาคธุรกิจที่ต้องการความแม่นยำ ความปลอดภัย และความน่าเชื่อถือสูง โดยเฉพาะอุตสาหกรรมการเงิน ซึ่งโมเดล AI ไม่สามารถเก่งแค่ในเชิงเทคนิคอย่างเดียว แต่ต้องเข้าใจบริบทของผู้ใช้ ลดความเสี่ยง และอธิบายผลลัพธ์ได้ในระดับที่องค์กรนำไปใช้จริงได้
คุณกวีวุฒิ เต็มภูวภัทร Chief Innovation Officer บริษัท เอสซีบี เอกซ์ จำกัด (มหาชน) หรือ SCBX และประธานเจ้าหน้าที่บริหาร บริษัท เอสซีบี เท็นเอกซ์ จำกัด หรือ SCB 10X กล่าวว่า กลุ่มเอสซีบีเอกซ์รู้สึกเป็นเกียรติที่ผลงานวิจัยของทีมได้รับการตอบรับในเวทีระดับโลกอย่าง ACL, EACL และ ICLR พร้อมกันรวม 5 ผลงาน ซึ่งล้วนเป็นเวทีที่มีมาตรฐานการคัดเลือกสูงและได้รับการยอมรับจากชุมชนนักวิจัยนานาชาติ ความสำเร็จครั้งนี้สะท้อนความมุ่งมั่นของกลุ่มในการพัฒนางานวิจัยระดับแนวหน้าอย่างต่อเนื่อง
คุณกวีวุฒิยังระบุว่า ผลงานทั้ง 5 ชิ้นแสดงให้เห็นแนวทางการพัฒนา AI ที่ให้ความสำคัญกับ 3 มิติที่เกื้อหนุนกัน ได้แก่การเข้าใจบริบทการใช้งานจริงของผู้ใช้ชาวไทย ทั้งด้านภาษาและความปลอดภัย, การขยายขีดความสามารถของโมเดลใหม่อย่าง Audio-Language และการลงลึกในงานวิจัยพื้นฐานที่ยกระดับ AI ทั้งระบบ ซึ่งเป็นปัจจัยสำคัญสำหรับการนำ AI ไปใช้ในภาคธุรกิจที่ต้องการความน่าเชื่อถือสูง
ผลงานแรกคือ Language-Aware Token Boosting หรือ LATB ซึ่งได้รับการตอบรับใน ACL 2026 (Main Conference) งานนี้แก้ปัญหาที่ผู้ใช้ภาษาไทยเจอบ่อยกับ LLM คือผู้ใช้ถามเป็นภาษาไทย แต่โมเดลตอบกลับเป็นภาษาอังกฤษ หรือสลับภาษาไปมา ทำให้ประสบการณ์ใช้งานไม่เป็นธรรมชาติ
วิธีของ LATB คือช่วยให้โมเดลรักษาภาษาที่ผู้ใช้ต้องการได้ดีขึ้นโดยไม่ต้องนำโมเดลกลับไปฝึกใหม่ หรือ Fine-Tune ใหม่ทั้งหมด เพราะการ Fine-Tune โมเดลมีต้นทุนสูง ใช้เวลา และต้องดูแลข้อมูลจำนวนมาก ถ้ามีวิธีลดปัญหา 'หลงภาษา' โดยไม่ต้องฝึกโมเดลใหม่ องค์กรก็สามารถนำ LLM ไปใช้กับภาษาไทยได้ง่ายขึ้น
งานนี้สะท้อนโจทย์สำคัญของ AI ยุคปัจจุบัน คือโมเดลระดับโลกจำนวนมากยังถูกออกแบบโดยมีภาษาอังกฤษเป็นศูนย์กลาง การทำให้ AI ตอบภาษาไทยได้แม่นขึ้นจึงเกี่ยวกับทั้งประสบการณ์ผู้ใช้และต้นทุนการนำ AI ไปใช้จริงในองค์กรไทย
ผลงานที่สองคือ ThaiSafetyBench ซึ่งได้รับการตอบรับใน ICLR 2026 Workshop ชื่อ Principled Design for Trustworthy AI งานนี้เปิดตัวชุดทดสอบความปลอดภัยของ LLM ที่ออกแบบเฉพาะสำหรับภาษาและวัฒนธรรมไทย
ปัจจุบันการประเมินความปลอดภัยของ AI ระดับโลกยังพึ่งพา Benchmark ภาษาอังกฤษเป็นหลัก ทำให้ความเสี่ยงเฉพาะในบริบทไทย เช่น ประเด็นทางสังคม วัฒนธรรม ค่านิยม และการใช้ภาษาที่มีบริบทเฉพาะ ไม่ถูกประเมินอย่างเป็นระบบ ThaiSafetyBench จึงเข้ามาเติมช่องว่างนี้ด้วยชุดข้อมูลทดสอบ 1,954 ตัวอย่างในภาษาไทย ครอบคลุม 6 กลุ่มความเสี่ยง และ 17 ประเภทอันตราย
ตามข้อมูลระบุว่า ทีมวิจัยทดสอบโมเดล AI ชั้นนำกว่า 24 โมเดล ทั้ง Claude 4.5 Sonnet, GPT-5, Gemini, Llama, Gemma, Qwen รวมถึงโมเดลที่พัฒนาในประเทศไทยอย่าง Typhoon และ OpenThaiGPT
ผลการศึกษาพบว่าการโจมตีที่อิงบริบทวัฒนธรรมไทยมีอัตราความสำเร็จสูงกว่าการโจมตีทั่วไปอย่างชัดเจน ซึ่งสะท้อนว่าความปลอดภัยของ AI ยังมีจุดอ่อนเมื่อเจอบริบทท้องถิ่นที่ Benchmark สากลอาจจับไม่เจอ
ที่สำคัญ ทีมวิจัยเปิดให้ใช้ชุดข้อมูล Leaderboard และเครื่องมือคัดกรองเนื้อหาอันตรายชื่อ ThaiSafetyClassifier ในรูปแบบ open-source เพื่อให้ชุมชนนักวิจัยและนักพัฒนาไทยนำไปต่อยอดได้ นี่คือหนึ่งในงานที่ทำให้การพูดเรื่อง Responsible AI ในไทยมีเครื่องมือวัดผลที่จับต้องได้มากขึ้น
อีกแกนหนึ่งของงานวิจัยมาจากทีม Typhoon ของ SCB DataX โดย AudioJudge ได้รับการตอบรับใน EACL 2026 (Main Conference) งานนี้ศึกษาการใช้ Large Audio Models หรือ LAMs เป็นผู้ตัดสินคุณภาพเสียงในหลายมิติพร้อมกัน
เดิมทีการประเมินเสียงมักต้องใช้ระบบเฉพาะทางแยกกัน เช่น ระบบหนึ่งใช้ตรวจการออกเสียง อีกระบบหนึ่งวัดอัตราเร็วในการพูด อีกระบบหนึ่งใช้ตรวจคุณภาพเสียง AudioJudge เสนอแนวทางใหม่ด้วยการใช้โมเดลเสียงขนาดใหญ่ประเมินหลายด้านในกรอบเดียว ทั้ง Pronunciation, Speaking Rate, Speaker Identification และ Speech Quality
ทีมวิจัยยังนำเสนอเทคนิค Multi-aspect Ensemble AudioJudge ที่ให้ผลใกล้เคียงกับการตัดสินของมนุษย์ โดยมี Spearman Correlation สูงถึง 0.91 ในเกณฑ์มาตรฐานการจัดอันดับระบบ
ความหมายคือ ถ้าองค์กรต้องใช้ AI กับงานเสียงจำนวนมาก เช่น คอลเซ็นเตอร์ การเรียนภาษา หรือระบบวัดคุณภาพเสียง เครื่องมือประเมินที่เข้าใกล้การรับรู้ของมนุษย์จะช่วยให้การพัฒนาโมเดลแม่นขึ้นและตรวจสอบได้ดีขึ้น
ผลงาน Extending Audio Context for Long-Form Understanding in Large Audio-Language Models ได้รับการตอบรับใน EACL 2026 (Main Conference) เช่นกัน งานนี้แก้คอขวดสำคัญของ Large Audio-Language Models หรือ LALMs ที่มักประมวลผลเสียงได้ในช่วงเวลาจำกัด เช่น 30 วินาที แม้โมเดลภาษาที่อยู่ข้างในจะรองรับบริบทที่ยาวกว่านั้นได้
ทีมวิจัยเสนอ Partial YaRN ซึ่งเป็นวิธีขยาย Context โดยปรับเฉพาะตำแหน่งของ Audio Token เพื่อไม่กระทบความสามารถด้านข้อความเดิมของโมเดล และเสนอ Virtual Longform Audio Training หรือ VLAT เพื่อช่วยให้โมเดลรับมือเสียงยาวที่ไม่เคยเจอระหว่างการฝึกได้ดีขึ้น
งานนี้สำคัญเพราะการใช้งานเสียงจริงในธุรกิจแทบไม่เคยจำกัดอยู่แค่คลิปสั้น 30 วินาที ไม่ว่าจะเป็นการประชุม, คอลเซ็นเตอร์, Podcast, วิดีโอสัมภาษณ์ หรือคอนเทนต์เสียงยาว ถ้าโมเดลเข้าใจบริบทเสียงยาวได้ดีขึ้น การนำ AI ไปใช้กับงานเสียงในโลกจริงก็จะมีพื้นที่มากขึ้น
ผลงานสุดท้ายศึกษาประเด็น Budget Forcing สำหรับ Sequential Test-Time Scaling และได้รับการตอบรับใน ICLR 2026 Blogposts Track งานนี้สำรวจวิธีเพิ่มความสามารถในการให้เหตุผลของ LLM ระหว่างการใช้งานจริง ผ่านแนวทางที่เรียกว่า Budget Forcing
Budget Forcing คือการควบคุม 'งบการคิด' ของโมเดล เช่นบังคับให้โมเดลใช้เวลาคิดหรือเขียนเหตุผลต่ออีกนิดก่อนตอบ เทคนิคหนึ่งที่ถูกพูดถึงคือการเติมคำว่า "Wait" เพื่อกระตุ้นให้โมเดลคิดต่อ แต่ทีมวิจัยพบว่าผลลัพธ์ไม่ได้เป็นเส้นตรงอย่างที่หลายคนเข้าใจ และคำว่า "Wait" ไม่ได้เป็นคำกระตุ้นที่ดีที่สุดเสมอไป
จากการทดลองกับโมเดลหลายตระกูล ทั้ง Qwen, Llama, Gemma และ Mistral ทีมวิจัยพบว่าคำที่โมเดลใช้บ่อยตามธรรมชาติของตัวเอง เช่น "Let" หรือ "Perhaps" อาจให้ผลลัพธ์ที่ดีกว่าในบางกรณี งานนี้จึงให้แนวทางเชิงปฏิบัติสำหรับนักพัฒนาที่ต้องการนำ Test-Time Scaling ไปใช้จริง โดยไม่ยึดติดกับสูตรสำเร็จเพียงแบบเดียว
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด