รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google

มกราคม 23, 2025 | By Techsauce Team

ในยุคที่ Language Model (LLM) หรือโมเดลภาษาขนาดใหญ่เป็นรากฐานสำคัญที่ช่วยให้ AI เข้าใจและสื่อสารกับมนุษย์ได้อย่างใกล้เคียงกับธรรมชาติที่สุด ไม่ว่าจะเป็นการแปลภาษา ตอบคำถาม สรุปข้อมูล หรือช่วยเขียนเนื้อหา

แต่ปัญหาใหญ่ของการพัฒนา LLM คือ ความต้องการทรัพยากรที่มหาศาล ทั้งด้านการประมวลผลและหน่วยความจำ การฝึกโมเดลขนาดใหญ่เหล่านี้ต้องใช้ข้อมูลจำนวนมหาศาลและฮาร์ดแวร์ที่มีพลังการประมวลผลสูง เช่น GPU และ TPU ขั้นสูง ยิ่งโมเดลมีขนาดใหญ่เท่าใด ต้นทุนในการพัฒนาก็ยิ่งสูงขึ้นตามไปด้วย

นักวิจัยจาก Google จึงได้พัฒนาโครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ที่อาจช่วยแก้ปัญหาสำคัญของโมเดลภาษาขนาดใหญ่ในปัจจุบัน นั่นคือ การขยายหน่วยความจำขณะทำงานโดยไม่ทำให้ต้นทุนด้านหน่วยความจำและการประมวลผลพุ่งสูงขึ้น โดยโครงสร้างนี้มีชื่อว่า Titans มันสามารถจัดการข้อมูลได้อย่างชาญฉลาดขึ้น โดยเฉพาะเมื่อต้องทำงานกับข้อมูลจำนวนมากหรือข้อความที่ยาวมาก ๆ

รู้จัก Titans ทางออกใหม่ของการพัฒนา LLM

ก่อนจะไปรู้จัก Titans เรามาทำความเข้าใจปัญหาของการประมวลผล LLM ในปัจจุบันกันก่อน เนื่องจากโดยปกติแล้วโมเดลภาษาขนาดใหญ่จะใช้ attention layers เพื่อจับความสัมพันธ์ระหว่างคำ ( Tokens) ในข้อความ ระบบนี้มีประสิทธิภาพในการเข้าใจรูปแบบที่ซับซ้อน (เช่น Sky is Blue กระบวนการนี้ก็จะทำความเข้าใจว่าคำทั้ง 3 คำนี้เกี่ยวข้องกันยังไง) แต่มีข้อเสียคือ ใช้พลังประมวลผลและหน่วยความจำสูงมาก โดยเฉพาะเมื่อข้อความยาวขึ้น ก็สามารถดันต้นทุนในการคำนวณเพิ่มขึ้นแบบคูณสองได้เลยทีเดียว

ซึ่งก่อนหน้านี้ก็เคยมีนักวิจัยพยายามใช้ระบบที่ง่ายกว่า เช่น linear models ซึ่งออกแบบมาให้จัดการข้อความยาวๆ ได้ดีกว่า โดยใช้ทรัพยากรน้อยกว่า attention layers ซึ่งแน่นอนว่าข้อดีของ linear models คือสามารถประมวลผลข้อความยาวๆ ได้เร็วขึ้น และใช้พลังการประมวลผลน้อยลง

แต่ข้อเสียสำคัญคือมัน บีบอัดข้อมูลในข้อความมากเกินไป และการบีบอัดแบบนี้ทำให้โมเดลไม่สามารถเก็บรายละเอียดที่สำคัญในข้อความได้ ส่งผลให้โมเดลสูญเสียความเข้าใจที่เกี่ยวกับความสัมพันธ์ระหว่างคำในข้อความ (หรือพูดง่ายๆ ก็คือ แม้ประมวลผลเร็วขึ้น แต่ความสารถในการทำความเข้าใจจะลดลง)

ดังนั้น Titans ถูกพัฒนาขึ้นมาเพื่อแก้ปัญหานี้โดยเฉพาะ

Titans คือ โครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ซึ่งมีการเพิ่มสิ่งที่เรียกว่า "neural memory" หรือหน่วยความจำประสาทเทียม ประโยชน์คือ การที่มันสามารถใช้ attention layers เพื่อเก็บรายละเอียดของข้อมูล และเพิ่ม neural memory layers เพื่อจัดการข้อมูลในระยะยาวได้อย่างมีประสิทธิภาพ

ด้วยวิธีนี้ Titans สามารถจัดการกับข้อความที่ยาวมากๆ นับล้านโทเค็น ได้โดยที่ยังคงคุณภาพสูง และใช้ทรัพยากรน้อยกว่า นักวิจัยเชื่อว่าโครงสร้างนี้คล้ายกับสมองมนุษย์ที่มีส่วนต่างๆ ทำงานร่วมกันเพื่อเรียนรู้ จดจำ และนำข้อมูลมาใช้งาน

ซึ่งหากลองเปรียบเทียบทั้ง 3 กระบวนการ กับการอ่านหนังสือเล่มใหญ่สักเล่ม

Attention Layers

เหมือนคนที่อ่านทุกหน้าของหนังสือแบบละเอียดและวิเคราะห์ความเชื่อมโยงของข้อมูลในแต่ละย่อหน้า
ข้อดี: เข้าใจทุกอย่างลึกซึ้ง
ข้อเสีย: ใช้เวลานานและพลังงานมาก โดยเฉพาะเมื่อหนังสือเล่มหนา

Linear Models

เหมือนคนที่อ่านแบบข้ามๆ เน้นแค่พาดหัวหรือสรุปท้ายบท
ข้อดี: อ่านจบเร็วและใช้พลังงานน้อย
ข้อเสีย: หลายครั้งพลาดรายละเอียดสำคัญและอาจเข้าใจผิดในเนื้อหา

Titans

เหมือนคนที่อ่านหนังสือทั้งเล่ม พร้อมจดโน้ตส่วนสำคัญไว้ในความจำระยะยาว
ข้อดี: เข้าใจรายละเอียดเหมือน Attention Layers และสามารถเชื่อมโยงข้อมูลตั้งแต่บทแรกถึงบทสุดท้ายโดยไม่ลืม ใช้พลังงานน้อยกว่าเมื่อเทียบกับการอ่านทุกหน้าอย่างละเอียด

เข้าใจหน่วยความจำในโมเดล AI ให้มากขึ้น

หน่วยความจำในโมเดล AI มีความคล้ายกับหน่วยความจำของมนุษย์ โดยแต่ละแบบมีหน้าที่ต่างกันและทำงานแยกจากกัน ซึ่งแบ่งได้เป็น:

ความจำระยะสั้น (Short-term memory) ใช้เก็บข้อมูลในช่วงเวลาสั้นๆ สำหรับงานเฉพาะ เช่น การจำคำในประโยคที่กำลังอ่าน
ความจำใช้งาน (Working memory) ใช้แก้ไขปัญหาหรือตัดสินใจ
ความจำระยะยาว (Long-term memory) ใช้เก็บข้อมูลสำคัญที่สามารถเรียกคืนมาใช้งานในภายหลังได้ เช่น การจำชื่อสถานที่หรือข้อเท็จจริง

นักวิจัยเชื่อว่าการสร้างหน่วยความจำใน AI ที่มีความสามารถคล้ายมนุษย์ จำเป็นต้องมีโมดูลที่แยกหน้าที่เหล่านี้อย่างชัดเจนและทำงานร่วมกันได้อย่างสมดุล

ในปัจจุบัน โมเดลภาษาที่เราใช้ เช่น ChatGPT หรือ GPT ต่างๆ อาศัยกลไกที่เรียกว่า attention mechanism ซึ่งเปรียบเสมือนความจำระยะสั้น ที่ช่วยโฟกัสกับข้อมูลในบริบทที่กำลังประมวลผล แต่โมเดลเหล่านี้มีข้อจำกัดสำคัญ คือไม่สามารถเก็บข้อมูลที่มีประโยชน์ในระยะยาวได้ดี หรือเรียนรู้สิ่งใหม่ขณะกำลังทำงานได้ ดังนั้น นักวิจัยจึงได้เสนอแนวคิดใหม่ที่เรียกว่า Neural Long-Term Memory เพื่อเติมเต็มช่องว่างนี้

โดยบทบาทของ Neural Long-Term Memory ต่อ LLM ไม่ได้มาแทนที่ Attention mechanism แต่ทำงานร่วมกันในลักษณะของทีมเวิร์ก ดังนี้

Attention mechanism: ทำหน้าที่เป็นความจำระยะสั้น โฟกัสกับข้อความที่กำลังประมวลผล
Neural long-term memory: ทำหน้าที่เป็นความจำระยะยาว เรียนรู้และเก็บข้อมูลใหม่ๆ เพื่อใช้งานในอนาคต

ประโยชน์ของ Neural Long-Term Memory ก็คือการเพิ่มความจำระยะยาวใน AI ช่วยให้โมเดลเรียนรู้ข้อมูลใหม่ได้ทันทีโดยไม่ต้องฝึกฝนซ้ำ ประมวลผลข้อความยาวได้ดีขึ้น และใช้ทรัพยากรอย่างมีประสิทธิภาพ ดังนั้น มันจึงอาจเป็นก้าวใหม่ที่ช่วยให้ AI ฉลาดขึ้น คล้ายมนุษย์มากขึ้น และสามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพในระดับที่โมเดลเดิมไม่สามารถทำได้

อ้างอิง: venturebeat, forbes

No comment

ถอดบทเรียน 3 ผู้ประกอบการรุ่นใหม่ ไทย-ศรีลังกา-บังกลาเทศ จากงานสัมมนา BIMSTEC Young Gen Forum

สรุปจาก 'Innovation & Growth Drivers' หัวข้อเสวนาจากงาน BIMSTEC Young Gen Forum : Where the Future Meets ที่มีผู้นำรุ่นใหม่จาก 3 ประเทศ BIMSTEC มาเล่าวิสัยทัศน์ ความท้าทาย บนเวทีสั...

เมษายน 10, 2025 | By Techsauce Team

Tech & Biz

bimstec

entrepreneurship

bimstec-young-gen-forum

คืนชีพ Dire Wolf หมาป่าที่สูญพันธ์ไปเมื่อ 12,500 ปีก่อน นักวิทยาศาสตร์ทำได้อย่างไร ?

Dire Wolf คือชื่อของหมาป่าสายพันธุ์หนึ่งซึ่งสูญพันธุ์ไปเมื่อราว 12,500 ปีก่อน และในวันนี้ พวกมันได้กลับมามีชีวิตอีกครั้งอย่างน่าทึ่ง ในฐานะที่บริษัทเทคโนโลยีชีวภาพ Colossal Bioscie...

เมษายน 8, 2025 | By Techsauce Team

Tech & Biz

Dire Wolf

คอมตัมคอมพิวติ้ง ตอนนี้ไปถึงไหนแล้ว ? สรุปความก้าวหน้าควอนตัมจากงาน NVIDIA GTC 2025

งาน NVIDIA GTC 2025 เป็นปีแรกที่มีการจัดเวทีพูดคุยเกี่ยวกับควอนตัมคอมพิวติ้งโดยเฉพาะ (Quantum Day) ซึ่ง NVIDIA ในฐานะเจ้าภาพ และผู้ขับเคลื่อนการประมวลผลแบบ Accelerated Computing จึ...

มีนาคม 31, 2025 | By Techsauce Team

รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google

รู้จัก Titans ทางออกใหม่ของการพัฒนา LLM

Attention Layers

Linear Models

Titans

เข้าใจหน่วยความจำในโมเดล AI ให้มากขึ้น

RELATED ARTICLE

ถอดบทเรียน 3 ผู้ประกอบการรุ่นใหม่ ไทย-ศรีลังกา-บังกลาเทศ จากงานสัมมนา BIMSTEC Young Gen Forum

คืนชีพ Dire Wolf หมาป่าที่สูญพันธ์ไปเมื่อ 12,500 ปีก่อน นักวิทยาศาสตร์ทำได้อย่างไร ?

คอมตัมคอมพิวติ้ง ตอนนี้ไปถึงไหนแล้ว ? สรุปความก้าวหน้าควอนตัมจากงาน NVIDIA GTC 2025