IBM Corporation ได้ประกาศความพร้อมในการนำ IBM Spyre Accelerator มาใช้งานเชิงพาณิชย์ ซึ่งเป็นตัวเร่งการประมวลผล AI แบบ PCIe-based ที่ออกแบบมาเพื่อรองรับการทำงานแบบ low-latency inferencing สำหรับ generative AI และ agentic AI โดยเฉพาะบนระบบ IBM z17, LinuxONE และ Power11 ที่จะวางจำหน่ายในปี 2025 รายงานจาก IBM Newsroom ระบุว่าการเปิดตัวครั้งนี้เป็นส่วนหนึ่งของกลยุทธ์ในการนำ AI เข้าสู่ระบบองค์กรที่มีความต้องการด้านความปลอดภัยและประสิทธิภาพสูง
Spyre Accelerator ถูกเปิดเผยรายละเอียดทางสถาปัตยกรรมครั้งแรกในงาน Hot Chips 2024 โดยเป็นตัวเร่งที่ทำงานควบคู่ไปกับ Telum II processor ซึ่งมีความเร็วสูงถึง 5.5 GHz พร้อมแกนประมวลผล 8 cores และ cache memory ขนาด 360MB ตัวเร่ง Spyre ได้รับการผลิตด้วยเทคโนโลยี 5nm process จาก Samsung และถูกออกแบบมาเพื่อรองรับ Large Language Models และแอปพลิเคชัน AI ขั้นสูงอื่นๆ โดยไม่ต้องพึ่งพา GPU ภายนอกหรือบริการคลาวด์
ความสามารถที่โดดเด่นของระบบ z17 ที่มาพร้อมกับ Spyre Accelerator คือสามารถประมวลผล AI inference ได้มากกว่า 450 พันล้านครั้งต่อวัน พร้อม response time เพียง 1 มิลลิวินาที อ้างอิงจาก StorageReview และ Network World ระบบนี้ให้ throughput เพิ่มขึ้น 40% และลด latency โดยรวมลงถึง 4 เท่าเมื่อเทียบกับ Telum รุ่นก่อน นอกจากนี้ยังมีความสามารถในการทำงานของ AI accelerator เพิ่มขึ้น 50% เมื่อเทียบกับ z16
คุณสมบัติสำคัญของ Spyre Accelerator ได้แก่:
- รองรับการทำงาน generative AI และ agentic AI แบบ on-premises ทำให้องค์กรสามารถเก็บข้อมูลสำคัญไว้ภายในระบบได้
- ออกแบบมาสำหรับ enterprise workloads ที่ต้องการความปลอดภัยสูง เช่น ภาคการเงิน การแพทย์ และหน่วยงานราชการ
- ลดความซับซ้อนของสถาปัตยกรรม IT โดยไม่ต้องส่งข้อมูลออกไปประมวลผลภายนอก
- รองรับการทำงานแบบ ensemble method ของ AI ที่ผสมผสานทั้ง traditional AI models และ Large Language Models
การนำ Spyre Accelerator มาใช้งานมีความสำคัญอย่างยิ่งในยุคที่ความต้องการพลังงานสำหรับ generative AI คาดว่าจะเพิ่มขึ้น 75% ต่อปีในอีกหลายปีข้างหน้า ตามรายงานวิจัยจาก Morgan Stanley ระบบ z17 ที่มาพร้อม Spyre Accelerator จะพร้อมใช้งานตั้งแต่เดือนมิถุนายน 2025 สำหรับ Telum II processor ส่วนตัวเร่ง Spyre จะเริ่มวางจำหน่ายในไตรมาสที่ 4 ของปี 2025 โดย IBM มีแผนที่จะนำเทคโนโลยีนี้ไปใช้กับระบบ Power11 servers ด้วยเช่นกัน ซึ่งจะช่วยเสริมความแข็งแกร่งให้กับระบบ mainframe และ server ขององค์กรในการรองรับ AI workloads ที่ซับซ้อนมากขึ้นในอนาคต
