รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google | Techsauce

รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google

ในยุคที่ Language Model (LLM) หรือโมเดลภาษาขนาดใหญ่เป็นรากฐานสำคัญที่ช่วยให้ AI เข้าใจและสื่อสารกับมนุษย์ได้อย่างใกล้เคียงกับธรรมชาติที่สุด ไม่ว่าจะเป็นการแปลภาษา ตอบคำถาม สรุปข้อมูล หรือช่วยเขียนเนื้อหา

แต่ปัญหาใหญ่ของการพัฒนา LLM คือ ความต้องการทรัพยากรที่มหาศาล ทั้งด้านการประมวลผลและหน่วยความจำ การฝึกโมเดลขนาดใหญ่เหล่านี้ต้องใช้ข้อมูลจำนวนมหาศาลและฮาร์ดแวร์ที่มีพลังการประมวลผลสูง เช่น GPU และ TPU ขั้นสูง ยิ่งโมเดลมีขนาดใหญ่เท่าใด ต้นทุนในการพัฒนาก็ยิ่งสูงขึ้นตามไปด้วย

นักวิจัยจาก Google จึงได้พัฒนาโครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ที่อาจช่วยแก้ปัญหาสำคัญของโมเดลภาษาขนาดใหญ่ในปัจจุบัน นั่นคือ การขยายหน่วยความจำขณะทำงานโดยไม่ทำให้ต้นทุนด้านหน่วยความจำและการประมวลผลพุ่งสูงขึ้น โดยโครงสร้างนี้มีชื่อว่า Titans มันสามารถจัดการข้อมูลได้อย่างชาญฉลาดขึ้น โดยเฉพาะเมื่อต้องทำงานกับข้อมูลจำนวนมากหรือข้อความที่ยาวมาก ๆ

รู้จัก Titans ทางออกใหม่ของการพัฒนา LLM

ก่อนจะไปรู้จัก Titans เรามาทำความเข้าใจปัญหาของการประมวลผล LLM ในปัจจุบันกันก่อน เนื่องจากโดยปกติแล้วโมเดลภาษาขนาดใหญ่จะใช้ attention layers เพื่อจับความสัมพันธ์ระหว่างคำ ( Tokens) ในข้อความ ระบบนี้มีประสิทธิภาพในการเข้าใจรูปแบบที่ซับซ้อน (เช่น Sky is Blue กระบวนการนี้ก็จะทำความเข้าใจว่าคำทั้ง 3 คำนี้เกี่ยวข้องกันยังไง) แต่มีข้อเสียคือ ใช้พลังประมวลผลและหน่วยความจำสูงมาก โดยเฉพาะเมื่อข้อความยาวขึ้น ก็สามารถดันต้นทุนในการคำนวณเพิ่มขึ้นแบบคูณสองได้เลยทีเดียว

ซึ่งก่อนหน้านี้ก็เคยมีนักวิจัยพยายามใช้ระบบที่ง่ายกว่า เช่น linear models ซึ่งออกแบบมาให้จัดการข้อความยาวๆ ได้ดีกว่า โดยใช้ทรัพยากรน้อยกว่า attention layers ซึ่งแน่นอนว่าข้อดีของ linear models คือสามารถประมวลผลข้อความยาวๆ ได้เร็วขึ้น และใช้พลังการประมวลผลน้อยลง

แต่ข้อเสียสำคัญคือมัน บีบอัดข้อมูลในข้อความมากเกินไป และการบีบอัดแบบนี้ทำให้โมเดลไม่สามารถเก็บรายละเอียดที่สำคัญในข้อความได้ ส่งผลให้โมเดลสูญเสียความเข้าใจที่เกี่ยวกับความสัมพันธ์ระหว่างคำในข้อความ (หรือพูดง่ายๆ ก็คือ แม้ประมวลผลเร็วขึ้น แต่ความสารถในการทำความเข้าใจจะลดลง)

ดังนั้น Titans ถูกพัฒนาขึ้นมาเพื่อแก้ปัญหานี้โดยเฉพาะ

Titans คือ โครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ซึ่งมีการเพิ่มสิ่งที่เรียกว่า "neural memory" หรือหน่วยความจำประสาทเทียม ประโยชน์คือ การที่มันสามารถใช้ attention layers เพื่อเก็บรายละเอียดของข้อมูล และเพิ่ม neural memory layers เพื่อจัดการข้อมูลในระยะยาวได้อย่างมีประสิทธิภาพ

ด้วยวิธีนี้ Titans สามารถจัดการกับข้อความที่ยาวมากๆ นับล้านโทเค็น ได้โดยที่ยังคงคุณภาพสูง และใช้ทรัพยากรน้อยกว่า นักวิจัยเชื่อว่าโครงสร้างนี้คล้ายกับสมองมนุษย์ที่มีส่วนต่างๆ ทำงานร่วมกันเพื่อเรียนรู้ จดจำ และนำข้อมูลมาใช้งาน

ซึ่งหากลองเปรียบเทียบทั้ง 3 กระบวนการ กับการอ่านหนังสือเล่มใหญ่สักเล่ม

Attention Layers

  • เหมือนคนที่อ่านทุกหน้าของหนังสือแบบละเอียดและวิเคราะห์ความเชื่อมโยงของข้อมูลในแต่ละย่อหน้า
  • ข้อดี: เข้าใจทุกอย่างลึกซึ้ง
  • ข้อเสีย: ใช้เวลานานและพลังงานมาก โดยเฉพาะเมื่อหนังสือเล่มหนา

Linear Models

  • เหมือนคนที่อ่านแบบข้ามๆ เน้นแค่พาดหัวหรือสรุปท้ายบท
  • ข้อดี: อ่านจบเร็วและใช้พลังงานน้อย
  • ข้อเสีย: หลายครั้งพลาดรายละเอียดสำคัญและอาจเข้าใจผิดในเนื้อหา

Titans

  • เหมือนคนที่อ่านหนังสือทั้งเล่ม พร้อมจดโน้ตส่วนสำคัญไว้ในความจำระยะยาว
  • ข้อดี: เข้าใจรายละเอียดเหมือน Attention Layers และสามารถเชื่อมโยงข้อมูลตั้งแต่บทแรกถึงบทสุดท้ายโดยไม่ลืม ใช้พลังงานน้อยกว่าเมื่อเทียบกับการอ่านทุกหน้าอย่างละเอียด

เข้าใจหน่วยความจำในโมเดล AI ให้มากขึ้น

หน่วยความจำในโมเดล AI มีความคล้ายกับหน่วยความจำของมนุษย์ โดยแต่ละแบบมีหน้าที่ต่างกันและทำงานแยกจากกัน ซึ่งแบ่งได้เป็น:

  1. ความจำระยะสั้น (Short-term memory) ใช้เก็บข้อมูลในช่วงเวลาสั้นๆ สำหรับงานเฉพาะ เช่น การจำคำในประโยคที่กำลังอ่าน
  2. ความจำใช้งาน (Working memory) ใช้แก้ไขปัญหาหรือตัดสินใจ 
  3. ความจำระยะยาว (Long-term memory) ใช้เก็บข้อมูลสำคัญที่สามารถเรียกคืนมาใช้งานในภายหลังได้ เช่น การจำชื่อสถานที่หรือข้อเท็จจริง

นักวิจัยเชื่อว่าการสร้างหน่วยความจำใน AI ที่มีความสามารถคล้ายมนุษย์ จำเป็นต้องมีโมดูลที่แยกหน้าที่เหล่านี้อย่างชัดเจนและทำงานร่วมกันได้อย่างสมดุล

ในปัจจุบัน โมเดลภาษาที่เราใช้ เช่น ChatGPT หรือ GPT ต่างๆ อาศัยกลไกที่เรียกว่า attention mechanism ซึ่งเปรียบเสมือนความจำระยะสั้น ที่ช่วยโฟกัสกับข้อมูลในบริบทที่กำลังประมวลผล แต่โมเดลเหล่านี้มีข้อจำกัดสำคัญ คือไม่สามารถเก็บข้อมูลที่มีประโยชน์ในระยะยาวได้ดี หรือเรียนรู้สิ่งใหม่ขณะกำลังทำงานได้ ดังนั้น นักวิจัยจึงได้เสนอแนวคิดใหม่ที่เรียกว่า Neural Long-Term Memory เพื่อเติมเต็มช่องว่างนี้

โดยบทบาทของ Neural Long-Term Memory ต่อ LLM ไม่ได้มาแทนที่ Attention mechanism แต่ทำงานร่วมกันในลักษณะของทีมเวิร์ก ดังนี้

  • Attention mechanism: ทำหน้าที่เป็นความจำระยะสั้น โฟกัสกับข้อความที่กำลังประมวลผล
  • Neural long-term memory: ทำหน้าที่เป็นความจำระยะยาว เรียนรู้และเก็บข้อมูลใหม่ๆ เพื่อใช้งานในอนาคต

ประโยชน์ของ Neural Long-Term Memory ก็คือการเพิ่มความจำระยะยาวใน AI ช่วยให้โมเดลเรียนรู้ข้อมูลใหม่ได้ทันทีโดยไม่ต้องฝึกฝนซ้ำ ประมวลผลข้อความยาวได้ดีขึ้น และใช้ทรัพยากรอย่างมีประสิทธิภาพ ดังนั้น มันจึงอาจเป็นก้าวใหม่ที่ช่วยให้ AI ฉลาดขึ้น คล้ายมนุษย์มากขึ้น และสามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพในระดับที่โมเดลเดิมไม่สามารถทำได้

อ้างอิง: venturebeat, forbes

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

ตะลุย Davos ส่อง 5 ประเด็นหลัก ใน World Economic Forum

สำรวจประเด็นสำคัญจากงาน World Economic Forum 2025 ที่ Davos เวทีประชุมระดับโลกที่รวมผู้นำหลากหลายวงการ เพื่อหารือเรื่องเศรษฐกิจ เทคโนโลยี และสิ่งแวดล้อม พร้อมบทบาทไทยในเวทีนานาชาติ...

Responsive image

สรุป AI อดีต ปัจจุบัน อนาคต โดย Eric Grimson ศาสตราจารย์จาก MIT

ภายในงาน MIT Bangkok Symposium - Unleashing AI: Transforming Industries, Empowering Futures ที่จัดขึ้นในกรุงเทพฯ ศาสตราจารย์ ดร. Eric Grimson อธิการบดีฝ่ายวิชาการ จากสถาบันเทคโนโลย...

Responsive image

รู้จักเทรนด์ Brand Chem กลยุทธ์ TikTok 2025 การตลาดที่ต้อง ‘เป็นเพื่อน’ กับผู้บริโภค

สำรวจ TikTok What's Next Report 2025 และแนวคิด Brand Chem ที่เปลี่ยนการตลาดด้วยความร่วมมือระหว่างแบรนด์ ครีเอเตอร์ และชุมชน TikTok พร้อมเทรนด์สำคัญที่ขับเคลื่อนปี 2025...