รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google | Techsauce

รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google

ในยุคที่ Language Model (LLM) หรือโมเดลภาษาขนาดใหญ่เป็นรากฐานสำคัญที่ช่วยให้ AI เข้าใจและสื่อสารกับมนุษย์ได้อย่างใกล้เคียงกับธรรมชาติที่สุด ไม่ว่าจะเป็นการแปลภาษา ตอบคำถาม สรุปข้อมูล หรือช่วยเขียนเนื้อหา

แต่ปัญหาใหญ่ของการพัฒนา LLM คือ ความต้องการทรัพยากรที่มหาศาล ทั้งด้านการประมวลผลและหน่วยความจำ การฝึกโมเดลขนาดใหญ่เหล่านี้ต้องใช้ข้อมูลจำนวนมหาศาลและฮาร์ดแวร์ที่มีพลังการประมวลผลสูง เช่น GPU และ TPU ขั้นสูง ยิ่งโมเดลมีขนาดใหญ่เท่าใด ต้นทุนในการพัฒนาก็ยิ่งสูงขึ้นตามไปด้วย

นักวิจัยจาก Google จึงได้พัฒนาโครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ที่อาจช่วยแก้ปัญหาสำคัญของโมเดลภาษาขนาดใหญ่ในปัจจุบัน นั่นคือ การขยายหน่วยความจำขณะทำงานโดยไม่ทำให้ต้นทุนด้านหน่วยความจำและการประมวลผลพุ่งสูงขึ้น โดยโครงสร้างนี้มีชื่อว่า Titans มันสามารถจัดการข้อมูลได้อย่างชาญฉลาดขึ้น โดยเฉพาะเมื่อต้องทำงานกับข้อมูลจำนวนมากหรือข้อความที่ยาวมาก ๆ

รู้จัก Titans ทางออกใหม่ของการพัฒนา LLM

ก่อนจะไปรู้จัก Titans เรามาทำความเข้าใจปัญหาของการประมวลผล LLM ในปัจจุบันกันก่อน เนื่องจากโดยปกติแล้วโมเดลภาษาขนาดใหญ่จะใช้ attention layers เพื่อจับความสัมพันธ์ระหว่างคำ ( Tokens) ในข้อความ ระบบนี้มีประสิทธิภาพในการเข้าใจรูปแบบที่ซับซ้อน (เช่น Sky is Blue กระบวนการนี้ก็จะทำความเข้าใจว่าคำทั้ง 3 คำนี้เกี่ยวข้องกันยังไง) แต่มีข้อเสียคือ ใช้พลังประมวลผลและหน่วยความจำสูงมาก โดยเฉพาะเมื่อข้อความยาวขึ้น ก็สามารถดันต้นทุนในการคำนวณเพิ่มขึ้นแบบคูณสองได้เลยทีเดียว

ซึ่งก่อนหน้านี้ก็เคยมีนักวิจัยพยายามใช้ระบบที่ง่ายกว่า เช่น linear models ซึ่งออกแบบมาให้จัดการข้อความยาวๆ ได้ดีกว่า โดยใช้ทรัพยากรน้อยกว่า attention layers ซึ่งแน่นอนว่าข้อดีของ linear models คือสามารถประมวลผลข้อความยาวๆ ได้เร็วขึ้น และใช้พลังการประมวลผลน้อยลง

แต่ข้อเสียสำคัญคือมัน บีบอัดข้อมูลในข้อความมากเกินไป และการบีบอัดแบบนี้ทำให้โมเดลไม่สามารถเก็บรายละเอียดที่สำคัญในข้อความได้ ส่งผลให้โมเดลสูญเสียความเข้าใจที่เกี่ยวกับความสัมพันธ์ระหว่างคำในข้อความ (หรือพูดง่ายๆ ก็คือ แม้ประมวลผลเร็วขึ้น แต่ความสารถในการทำความเข้าใจจะลดลง)

ดังนั้น Titans ถูกพัฒนาขึ้นมาเพื่อแก้ปัญหานี้โดยเฉพาะ

Titans คือ โครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ซึ่งมีการเพิ่มสิ่งที่เรียกว่า "neural memory" หรือหน่วยความจำประสาทเทียม ประโยชน์คือ การที่มันสามารถใช้ attention layers เพื่อเก็บรายละเอียดของข้อมูล และเพิ่ม neural memory layers เพื่อจัดการข้อมูลในระยะยาวได้อย่างมีประสิทธิภาพ

ด้วยวิธีนี้ Titans สามารถจัดการกับข้อความที่ยาวมากๆ นับล้านโทเค็น ได้โดยที่ยังคงคุณภาพสูง และใช้ทรัพยากรน้อยกว่า นักวิจัยเชื่อว่าโครงสร้างนี้คล้ายกับสมองมนุษย์ที่มีส่วนต่างๆ ทำงานร่วมกันเพื่อเรียนรู้ จดจำ และนำข้อมูลมาใช้งาน

ซึ่งหากลองเปรียบเทียบทั้ง 3 กระบวนการ กับการอ่านหนังสือเล่มใหญ่สักเล่ม

Attention Layers

  • เหมือนคนที่อ่านทุกหน้าของหนังสือแบบละเอียดและวิเคราะห์ความเชื่อมโยงของข้อมูลในแต่ละย่อหน้า
  • ข้อดี: เข้าใจทุกอย่างลึกซึ้ง
  • ข้อเสีย: ใช้เวลานานและพลังงานมาก โดยเฉพาะเมื่อหนังสือเล่มหนา

Linear Models

  • เหมือนคนที่อ่านแบบข้ามๆ เน้นแค่พาดหัวหรือสรุปท้ายบท
  • ข้อดี: อ่านจบเร็วและใช้พลังงานน้อย
  • ข้อเสีย: หลายครั้งพลาดรายละเอียดสำคัญและอาจเข้าใจผิดในเนื้อหา

Titans

  • เหมือนคนที่อ่านหนังสือทั้งเล่ม พร้อมจดโน้ตส่วนสำคัญไว้ในความจำระยะยาว
  • ข้อดี: เข้าใจรายละเอียดเหมือน Attention Layers และสามารถเชื่อมโยงข้อมูลตั้งแต่บทแรกถึงบทสุดท้ายโดยไม่ลืม ใช้พลังงานน้อยกว่าเมื่อเทียบกับการอ่านทุกหน้าอย่างละเอียด

เข้าใจหน่วยความจำในโมเดล AI ให้มากขึ้น

หน่วยความจำในโมเดล AI มีความคล้ายกับหน่วยความจำของมนุษย์ โดยแต่ละแบบมีหน้าที่ต่างกันและทำงานแยกจากกัน ซึ่งแบ่งได้เป็น:

  1. ความจำระยะสั้น (Short-term memory) ใช้เก็บข้อมูลในช่วงเวลาสั้นๆ สำหรับงานเฉพาะ เช่น การจำคำในประโยคที่กำลังอ่าน
  2. ความจำใช้งาน (Working memory) ใช้แก้ไขปัญหาหรือตัดสินใจ 
  3. ความจำระยะยาว (Long-term memory) ใช้เก็บข้อมูลสำคัญที่สามารถเรียกคืนมาใช้งานในภายหลังได้ เช่น การจำชื่อสถานที่หรือข้อเท็จจริง

นักวิจัยเชื่อว่าการสร้างหน่วยความจำใน AI ที่มีความสามารถคล้ายมนุษย์ จำเป็นต้องมีโมดูลที่แยกหน้าที่เหล่านี้อย่างชัดเจนและทำงานร่วมกันได้อย่างสมดุล

ในปัจจุบัน โมเดลภาษาที่เราใช้ เช่น ChatGPT หรือ GPT ต่างๆ อาศัยกลไกที่เรียกว่า attention mechanism ซึ่งเปรียบเสมือนความจำระยะสั้น ที่ช่วยโฟกัสกับข้อมูลในบริบทที่กำลังประมวลผล แต่โมเดลเหล่านี้มีข้อจำกัดสำคัญ คือไม่สามารถเก็บข้อมูลที่มีประโยชน์ในระยะยาวได้ดี หรือเรียนรู้สิ่งใหม่ขณะกำลังทำงานได้ ดังนั้น นักวิจัยจึงได้เสนอแนวคิดใหม่ที่เรียกว่า Neural Long-Term Memory เพื่อเติมเต็มช่องว่างนี้

โดยบทบาทของ Neural Long-Term Memory ต่อ LLM ไม่ได้มาแทนที่ Attention mechanism แต่ทำงานร่วมกันในลักษณะของทีมเวิร์ก ดังนี้

  • Attention mechanism: ทำหน้าที่เป็นความจำระยะสั้น โฟกัสกับข้อความที่กำลังประมวลผล
  • Neural long-term memory: ทำหน้าที่เป็นความจำระยะยาว เรียนรู้และเก็บข้อมูลใหม่ๆ เพื่อใช้งานในอนาคต

ประโยชน์ของ Neural Long-Term Memory ก็คือการเพิ่มความจำระยะยาวใน AI ช่วยให้โมเดลเรียนรู้ข้อมูลใหม่ได้ทันทีโดยไม่ต้องฝึกฝนซ้ำ ประมวลผลข้อความยาวได้ดีขึ้น และใช้ทรัพยากรอย่างมีประสิทธิภาพ ดังนั้น มันจึงอาจเป็นก้าวใหม่ที่ช่วยให้ AI ฉลาดขึ้น คล้ายมนุษย์มากขึ้น และสามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพในระดับที่โมเดลเดิมไม่สามารถทำได้

อ้างอิง: venturebeat, forbes

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

รู้จัก Jurassic World ตำนานแฟรนไชส์ภาพยนตร์ยอดนิยม สู่ประสบการณ์จริงสุดอิมเมอร์ซีฟในกรุงเทพฯ

บทความนี้จะพาทุกคนไปรู้จักกับโลกของ Jurassic World โลกภาพยนตร์ก็เปลี่ยนไปตลอดกาล ก่อนสัมผัสประสบการณ์จริงอันน่าเหลือเชื่อในไตรมาสที่สองของปี 2025...

Responsive image

KBTG เผย ‘Horizontal Core Banking’ บิ๊กโปรเจกต์ขยายระบบหลังบ้าน KBank รองรับการเติบโตได้ถึงปี 2031

เจาะอินไซด์การขยายระบบหลักของธนาคารกสิกรไทย เพื่อรองรับการเติบโตของลูกค้ายาวถึงปี 2031 ใน ‘Core Banking Horizontal Scale Project’ โดยทีม KBTG และทีม KBank รวมแล้วพันคน มาร่วมแรงร่ว...

Responsive image

DeepSeek และ Qwen: เมื่อ AI ราคาถูกเปลี่ยนโฉมโลก

DeepSeek และ Qwen จาก Alibaba กำลังเปลี่ยนแปลงวงการ AI ด้วยต้นทุนที่ต่ำลง ส่งผลต่อเศรษฐกิจ ธุรกิจ และระบบนิเวศ AI ทั่วโลก สุภาวดี ตันติยานนท์ วิเคราะห์ผลกระทบและแนวทางที่ประเทศไทยค...