ข่าวดีวงการ AI ของไทย ในที่สุดเราก็มีโมเดลภาษาขนาดใหญ่ที่ได้รับพัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ (Large Language Model optimized for Thai) อย่าง Typhoon-7B (ไต้ฝุ่น) ซึ่งการทดสอบชี้ว่ามีความสามารถใกล้เคียงกับ GPT-3.5 ของ OpenAI
ทีม SCB 10X ได้เปิดตัว Typhoon-7B ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ได้รับการพัฒนาขึ้นมาสำหรับภาษาไทยโดยเฉพาะ ซึ่งถือว่าเป็น AI ที่ฉลาดที่สุดในวงการปัญญาประดิษฐ์ไทยในส่วนของโมเดลที่มีการเผยแพร่สาธารณะตอนนี้
ในการประเมินความสามารถในการทำความเข้าใจภาษาไทยของ Typhoon-7B ทีมผู้พัฒนาได้รวบรวมและจัดเตรียมข้อมูลให้อยู่ในรูปแบบที่นำมาประเมินผลโมเดลได้ โดยเป็นข้อมูลที่อ้างอิงมาจากข้อสอบภาษาไทยระดับความยากเทียบเท่าข้อสอบมัธยมปลาย เช่น O-NET, TGAT, TPAT, A-Level และข้อสอบมาตรฐานอื่นๆ เช่น IC test สำหรับผู้ให้คำแนะนำด้านการลงทุน
จากการประเมินความสามารถของ Typhoon-7B พบว่า ประสิทธิภาพการทำงานของ Typhoon-7B มีความใกล้เคียงกับความสามารถของ GPT 3.5 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่อยู่เบื้องหลังของ ChatGPT
โดย Typhoon-7B พัฒนาต่อมาจากโมเดล Mistral-7B ที่เป็นโมเดลภาษาอังกฤษขนาดใหญ่ ซึ่งทางทีมผู้พัฒนาได้ผสมผสานข้อมูลภาษาไทยกว่า 5,000 คำ และใช้กระบวนการที่เรียกว่า Tokenization หรือการแบ่งย่อยข้อความออกเป็นหน่วยเล็ก ๆ ที่เรียกว่า Token เพื่อให้คอมพิวเตอร์สามารถทำความเข้าใจภาษาเขียนในงานต่าง ๆ ได้
เป้าหมายของการทำ Tokenization คือ การสร้างสมดุลระหว่างความเร็วและความแม่นยำเมื่อต้องจัดการกับข้อความภาษาไทย และพบว่า Typhoon-7B มีประสิทธิภาพเหนือกว่าโมเดลภาษาไทยที่มีการเผยแพร่แบบสาธารณะอยู่ทั้งหมด นอกจากนี้ ยังสามารถประมวลผลหรือวิเคราะห์ข้อความและคำภาษาไทยได้อย่างมีประสิทธิภาพกว่า GPT-4 ถึง 2.62 เท่า
หรือพูดง่าย ๆ ก็คือ เรากำลังจะมี AI Application ที่คล้าย ChatGPT แต่สามารถถาม - ตอบเป็นภาษาไทยได้อย่างมีประสิทธิภาพและเป็นธรรมชาติมากยิ่งขึ้น เพราะมันสามารถทำความเข้าใจคำศัพท์และวัฒนธรรมของภาษาไทยได้มากกว่าเดิมนั่นเอง
ตอนนี้ทีม SCB 10X ได้เผยแพร่รายงานเชิงเทคนิคเกี่ยวกับการพัฒนาและวัดผลโมเดล Typhoon โดยสามารถดูรายละเอียดได้ที่ https://arxiv.org/abs/2312.13951 รวมถึงยังเปิดให้ผู้สนใจและนักพัฒนาได้ทดลองใช้ Typhoon-7B ในเวอร์ชัน Pretrained model ภายใต้ใบอนุญาต Apache 2.0 โดยไม่มีค่าใช้จ่าย สามารถดาวน์โหลดได้ที่ https://huggingface.co/scb10x/typhoon-7b
สำหรับผู้ที่สนใจหรือนักพัฒนาสามารถลงทะเบียน Waiting List เพื่อใช้งานโมเดล Instruction-tuned เวอร์ชันเริ่มต้นในรูปแบบของ API ได้ในเร็ว ๆ นี้ ที่ https://opentyphoon.ai โดยทางทีม SCB 10X หวังว่าโมเดล Typhoon-7B จะเป็นประโยชน์กับการพัฒนาโมเดลภาษาไทยขนาดใหญ่ และเพิ่มขีดความสามารถด้านการแข่งขันให้แก่อุตสาหกรรม AI ของไทยให้มีประสิทธิภาพและความก้าวหน้าเพิ่มขึ้นในอนาคต
อ้างอิง: 2312.13951.pdf (arxiv.org), arxiv.org, huggingface.co/scb10x/typhoon-7b, opentyphoon.ai
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด