IBM ประกาศเปิดตัว Granite 4.0 โมเดลภาษาขนาดใหญ่รุ่นใหม่ที่ใช้สถาปัตยกรรมแบบ Hybrid ที่ผสมผสานระหว่าง Mamba และ Transformer เข้าด้วยกัน ซึ่งสามารถลดการใช้หน่วยความจำได้อย่างมีนัยสำคัญเมื่อเทียบกับโมเดลแบบ Transformer ทั่วไป รายงานจาก IBM Think ระบุว่าโมเดลรุ่นนี้เปิดให้ใช้งานภายใต้สัญญาอนุญาต Apache 2.0 และเป็นโมเดล Open-source รายแรกของโลกที่ได้รับการรับรองมาตรฐาน ISO 42001 สำหรับการจัดการระบบ AI
Granite 4.0 ใช้สถาปัตยกรรมแบบ Hybrid ที่ผสม Mamba-2 กับ Transformer ในอัตราส่วน 9:1 ซึ่งแตกต่างจากโมเดลทั่วไปที่ใช้ Transformer ล้วนๆ จุดเด่นของสถาปัตยกรรมแบบนี้คือช่วยแก้ปัญหา "Quadratic Bottleneck" ที่เกิดจากกลไก Self-attention ในโมเดล Transformer แบบดั้งเดิม ซึ่งต้องเก็บข้อมูลทั้งหมดไว้ในหน่วยความจำและมีต้นทุนการประมวลผลที่เพิ่มขึ้นแบบกำลังสองเมื่อ Context ยาวขึ้น การใช้ State-space Model อย่าง Mamba ร่วมกับ Transformer จึงช่วยลดภาระด้านหน่วยความจำได้อย่างมาก
จากข้อมูลที่เปิดเผยบน Hugging Face ระบุว่าโมเดล Granite 4.0 Tiny ซึ่งเป็นรุ่นที่เล็กที่สุดในตระกูล Granite 4.0 มีพารามิเตอร์ทั้งหมด 7 พันล้านตัว แต่ใช้งานจริงเพียง 1 พันล้านพารามิเตอร์ในแต่ละครั้งที่ประมวลผล ทำให้ลดการใช้หน่วยความจำได้ประมาณ 72% เมื่อเทียบกับ Granite 3.3 2B โมเดลนี้รองรับ Context Window ขนาด 128,000 โทเค็น และสามารถทำงานได้หลายเซสชันพร้อมกันบนการ์ดจอ GPU ระดับผู้บริโภคที่มีราคาต่ำกว่า 350 ดอลลาร์สหรัฐ เมื่อใช้ความแม่นยำแบบ FP8
ความสามารถที่โดดเด่นของ Granite 4.0 มีดังนี้:
- ลดต้นทุนในการใช้งานได้อย่างมีนัยสำคัญ เนื่องจากสามารถทำงานบน GPU ที่มีราคาถูกกว่าได้
- รองรับภาษาหลากหลายรวม 12 ภาษา ได้แก่ อังกฤษ เยอรมัน สเปน ฝรั่งเศส ญี่ปุ่น โปรตุเกส อาหรับ เช็ก อิตาลี เกาหลี ดัตช์ และจีน
- มีการเซ็นด้วยวิธีการเข้ารหัส (Cryptographically Signed) เพื่อยืนยันความถูกต้องของโมเดล
- ไม่ใช้ Positional Encoding แบบดั้งเดิม (No Positional Encoding – NoPE) ทำให้สามารถรองรับ Context ที่ยาวได้โดยไม่มีข้อจำกัด
- เหมาะสำหรับงานหลากหลายรูปแบบ เช่น การสรุปเอกสาร การจัดหมวดหมู่ข้อความ การตอบคำถาม และการทำงานที่ต้องใช้ Context ยาว
IBM ระบุว่าโมเดล Granite 4.0 ทั้งตระกูลถูกออกแบบมาเพื่อใช้งานในองค์กร โดยเน้นความโปร่งใส ประสิทธิภาพ และความคุ้มค่า โมเดลเหล่านี้สามารถดาวน์โหลดและใช้งานได้แล้วทาง Hugging Face และจะมีการรองรับผ่านแพลตฟอร์มต่างๆ เช่น Ollama, LM Studio, Replicate และ IBM watsonx.ai ในอนาคตอันใกล้ ซึ่งจะช่วยให้ผู้พัฒนาและองค์กรต่างๆ สามารถนำไปปรับใช้งานได้อย่างสะดวก
