Google ปล่อย Magika 1.0 เวอร์ชัน Stable แรก เขียนใหม่ทั้งหมดด้วย Rust
หลังจากเปิดตัวเวอร์ชัน alpha ไปเมื่อต้นปี 2024 ทีม Google ได้ปล่อย Magika 1.0 ออกมาอย่างเป็นทางการ ซึ่งถือเป็นเวอร์ชัน stable แรกของระบบตรวจจับชนิดไฟล์ที่ขับเคลื่อนด้วย AI ความเปลี่ยนแปลงครั้งใหญ่สุดคือการเขียนโค้ดแกนกลางใหม่ทั้งหมดด้วยภาษา Rust แทนที่ Python เพื่อเพิ่มความเร็วและความปลอดภัยในการประมวลผล เนื่องจาก Magika ต้องสแกนไฟล์จากแหล่งต่างๆ มากมาย[1]
ใน Magika 1.0 นี้มาพร้อมความสามารถในการตรวจจับไฟล์มากกว่า 200 ฟอร์แมต (เพิ่มจากเดิมราว 100 ฟอร์แมต) โดยสามารถแยกประเภทได้ละเอียดขึ้น เช่น แยก JSONL ออกจาก JSON หรือแยกไฟล์ C++ จาก C ได้[1] สำหรับฟอร์แมตเก่าๆ ที่ข้อมูลตัวอย่างไม่เพียงพอ ทีมงานยังใช้ Gemini AI ช่วยสร้างชุดทดสอบเพิ่มเติมอีกด้วย
แม้ว่า Magika จะใช้โมเดล deep learning แต่ก็เป็นโมเดลขนาดเล็กเพียงไม่กี่ MB ที่สามารถสแกนไฟล์ได้หลายร้อยไฟล์ต่อวินาทีแม้จะรันบน CPU เดียว โดยมีความแม่นยำเฉลี่ยถึง 99% จากการฝึกด้วยชุดข้อมูลขนาดกว่า 3TB[1][2]
ปัจจุบัน Magika ถูกนำไปใช้งานจริงในระดับใหญ่ใน Gmail, Google Drive และ Safe Browsing เพื่อช่วยตรวจสอบและส่งไฟล์ไปยังระบบสแกนความปลอดภัยที่เหมาะสม โดยประมวลผลไฟล์หลายร้อยพันล้านรายการต่อสัปดาห์ นอกจากนี้ยังถูกนำไปใช้ใน VirusTotal อีกด้วย และตอนนี้มีการดาวน์โหลดมากกว่า 1 ล้านครั้งต่อเดือน[1][3] สำหรับนักพัฒนาที่สนใจ สามารถติดตั้งผ่าน pip install magika หรือใช้งานผ่าน command line ได้เลย
ที่มา: Google Open Source Blog
