close menu

أكبر مشروع open-source في أوروبا: إطلاق شركة "سبير" مجموعة من النماذج العصبية الروسية المتقدمة

كشفت شركة "سبير" الروسية عن أوزان نموذجين جديدين رائدين بتقنية MoE ضمن مجموعةGigaChat، وهما Ultra-Preview وLightning، وقد جرى تطويرهما من الصفر للتعامل مع المهام باللغة الروسية وتنفيذها بدقة. وطرحت "سبير" أيضًا الجيل الجديد من نماذج تحويل الكلام إلى نص مفتوحة المصدر GigaAM-v3 القادرة على إنتاج نص منسّق ويحتوي على علامات الترقيم.

وأطلقت "سبير" أيضًا نماذج توليد الصور ومقاطع الفيديو من مجموعة Kandinsky 5.0 -Video Pro وVideo Lite وImage Lite-، وهي نماذج متقدمة مطوّرة محليًا تتميز بقدرتها على فهم الأوامر باللغة الروسية وتحديد السياق الثقافي الروسي وتدعم كتابة نصوص بالحروف السيريلية داخل الصور ومقاطع الفيديو. وأطلقت أيضًا نماذج K-VAE 1.0 لضغط البيانات البصرية الضرورية لتدريب نماذج توليد المحتوى البصري، والتي تُعد أفضل النماذج المفتوحة من هذا النوع على مستوى العالم. أصبح الكود والأوزان الخاصة بهذه النماذج متاحة للجميع بموجب ترخيص MIT، ويمكن استخدامها حتى للأغراض التجارية دون قيود.

يقول أندريه بيليفتسيف، النائب الأول للمدير ورئيس قسم "التطوير التكنولوجي" في "سبيربنك":

لإنشاء ذكاء اصطناعي بمستوى عالمي، لا بد من توفر عنصرين رئيسيين: موارد ضخمة، والأهم من ذلك، فِرق بحث وتطوير على أعلى مستوى. و"سبير" تمتلك كليهما. ومع ذلك، فنحن نرفض مبدأ التقنية "المغلقة". رؤيتنا هي بناء أساس مفتوح يخدم البلد بأكمله، ولهذا نشارك أوزان نماذجنا، فهي خطوة جوهرية لتحقيق رؤيتنا. فعندما تكون هذه النماذج متاحة، تستطيع أي شركة روسية -سواء كانت بنكًا أو شركة ناشئة- استخدامها داخل بيئتها المغلقة وتدريبها على بياناتها الحساسة دون الحاجة للكشف عنها لأي طرف، وهذا هو جوهر السيادة التكنولوجية الحقيقية؛ عندما يصبح الذكاء الاصطناعي متاحًا للجميع في روسيا، ويتحول إلى أداة لتطوير الأعمال وتحفيز النمو الاقتصادي. وأود أن أشير أيضًا إلى أن نموذج Ultra سيُتاح قريبًا للعملاء من الشركات بعد تحسينه ليصبح أقل تكلفة عند استخدامه داخل بيئة الشركة.

انضم إلى مجموعة نماذج GigaChat إصداران جديدان، وهما: GigaChat Ultra Preview وGigaChat Lightning. ويُعد GigaChat Ultra Preview أقوى وأضخم نموذج في مجموعة GigaChat، وهو أول نموذج روسي بهذا الحجم. ورغم أن تدريبه لا يزال مستمرًا، فإنه في مرحلته الحالية يتفوق على نموذج DeepSeek V3.1 في معظم مؤشرات الجودة الخاصة باللغة الروسية (متصدرًا في معيار MERA)، ويتفوق أيضًا على النموذج الرائد السابق GigaChat Max 2.

يأتي GigaChat Ultra-Preview بترخيص مفتوح يتيح إعادة تدريبه داخليًا، حتى في البيئات المؤسسية المغلقة التي تفرض أعلى مستويات التحكم في خصوصية البيانات والالتزام الصارم بمعايير الأمن المعلوماتي مع تحقيق أعلى جودة ممكنة. ورغم حجمه الكبير، يبقى النموذج سريع الأداء، حتى أنه أسرع من GigaChat 2 MAX.

أما GigaChat Lightning فهو أخف وأسرع نموذج MoE في المجموعة، وهو مصمم خصيصًا للتشغيل على الحواسيب المحمولة ولدعم التطوير السريع للمنتجات.

فيما يتعلق بالجودة، فهو ينافس أفضل النماذج مفتوحة المصدر عالميًا من هذا النوع؛ فهو يتفوق على Qwen3-4B في المهام باللغة الروسية، ويقدم أداء يعادله في المحادثات وتحليل المستندات ومعالجة المهام التجارية التطبيقية.

وبالإضافة إلى نشر أوزان النموذج، كما فعلنا مع GigaChat Ultra، نوفر أيضًا تقنية الاستدلال السريع؛ إذ يُظهر Lightning أداءً يتفوق على منافسيه، ويعمل بسرعة قريبة من Qwen3-1.7B رغم كونه أكبر منه بست مرات.

يقدم كلا النموذجين تكاملاً فعالًا مع الأدوات الخارجية، وأبرزها أداتان أساسيتان: الكود والذاكرة.

• الكود هو أداة لتنفيذ العمليات البرمجية وتحليلها وعرضها بصريًا؛ فهو يتيح تشغيل مقاطع من الكود، وإنشاء الرسوم البيانية، وإجراء الحسابات، واختبار الفرضيات مباشرة.

• الذاكرة هي نظام يتيح تواصلاً شخصيًا أكثر كفاءة، إذ يحتفظ بالتفاصيل المهمة مثل الأهداف، والتفضيلات، وسجلّ الحوارات. ويمكن للنماذج بفضلها تقديم نصائح مخصّصة وتحديث المعلومات أثناء الحوار. وفي الوقت نفسه، تُزال المعلومات القديمة أو الحساسة، كما يمكن للمستخدم تعديل الذاكرة يدويًا.

GigaAM-v3 هو إصدار مفتوح يضم خمس نماذج متقدمة للتعرّف التلقائي على الكلام باللغة الروسية (ASR)، جاهزة تمامًا للاستخدام الصناعي والتجاري. صُمّم GigaAM-v3 لتقديم المساعدات الصوتية ولتلبية احتياجات مراكز الاتصال وتحليل المكالمات ومنصات الرسائل الصوتية والوكلاء متعددِي الوسائط.

في هذا الإصدار، زادت ساعات التدريب الصوتي من 50 ألفًا إلى 700 ألف ساعة، مع إضافة مجالات جديدة تشمل مكالمات مراكز الخدمة، والطلبات الموسيقية، وأنماط الكلام الخاصة، والكلام العفوي، وهو ما حسّن دقته في هذه الاستخدامات بشكل ملحوظ.

وبفضل النموذج الأساسي GigaAM-v3، يمكن تطوير أي تقنية متعلقة بالصوت؛ فهو يُستخدم داخل "سبير" في التعرف على الكلام، وتوليد الأصوات، وتمكين GigaChat من التعامل مع مقاطع الفيديو والمقاطع الصوتية.

تضم سلسلة Kandinsky 5.0 نموذج Image Lite القادر على توليد الصور من النصوص وتعديلها، بالإضافة إلى نسختين من نماذج توليد الفيديو: النسخة السريعة Video Lite والنسخة الأقوى Video Pro، وكلاهما قادر على إنشاء مقاطع فيديو اعتمادًا على الوصف النصي و"تحريك" الصور.

يعمل النموذج الشامل Kandinsky 5.0 Image Lite بدقة HD، ويتمتع بفهم عميق للثقافة الروسية، ويفهم الطلبات باللغتين الروسية والإنجليزية، كما يمكنه توليد الكتابات باللاتينية وبالسيريلية. أما Kandinsky 5.0 Video Pro فيولّد مقاطع فيديو تصل إلى 10 ثوانٍ بجودة HD وبمعدل 24 إطارًا في الثانية، ويُعدّ أفضل نموذج مفتوح من هذا النوع، متفوّقًا على Wan 2.2 A14B، ويحقق مستوى بصريًا مماثلًا لنموذج Veo 3، وهو أحد أقوى النماذج الاحتكارية في العالم. ولتسهيل دمجه في التطبيقات، جرى تحسين نموذج Kandinsky 5.0 Video Lite ليعمل على بطاقات الرسوميات الموجودة في أجهزة الكمبيوتر المنزلية العادية ذات ذاكرة 12 جيجابايت فأكثر.

دُرب Kandinsky 5.0 على ما يقارب مليار صورة و300 مليون مقطع فيديو. ولتكييفه مع السياق الثقافي الروسي، استخدم المطورون أكثر من مليون مادة إضافية من الوسائط. وقد تطلّب العمل على هذه الكميات الهائلة من البيانات اعتماد أساليب متقدمة، طُور بعضها خصيصًا لهذا المشروع. وفي المراحل النهائية، استخدمت مجموعة بيانات فائقة الجودة، اختارها فريق كبير من المصممين والفنانين. اختار الخبراء المواد بعناية فائقة للتأكد من تميز النموذج على مستوى التكوين والأسلوب والجودة.

وتفتح نماذج Kandinsky الباب أمام تطوير منتجات عديدة؛ من أدوات الإبداع الفردي وحتى الأدوات الاحترافية المستخدمة في الصناعة. وبفضل توفرها كبرمجيات مفتوحة، سيتمكن المطورون والشركات من بناء خدمات تمكّن المستخدمين من إنشاء فيديوهات تهنئة شخصية، وتحريك الصور، وابتكار قصص مرئية بسهولة. أما المحترفون، مثل المخرجين والمصممين والمسوقين وفناني الأنيميشن، فسيجدون في Kandinsky 5.0 أداة قوية لإنتاج المواد الدعائية والمحتوى والمشاريع البصرية التجارية. وستسهم هذه التقنيات في ترسيخ منظومة مفتوحة تدعم الابتكار في مجال التقنيات التوليدية الروسية.

تخلق النماذج التوليدية، مثل Kandinsky 5.0، المحتوى داخل "فضاء مخفي" لا يمكن للعين البشرية قراءته. ويُعد هذا ضروريًا لجعل عملية التدريب أكثر كفاءة وسرعة، وأقل استهلاكًا للذاكرة، ولتسهيل استخدام مثل هذه النماذج. وقد أطلقت "سبير" محولات ذاتية التدريب خاصة بها تحت اسم K-VAE 1.0 للصور (2D) ومقاطع الفيديو (3D)، تعمل على تحويل الوسائط إلى تمثيلات مخفية ثم تعيد تكوينها.

وتُعد نماذج K-VAE 1.0 الأفضل عالميًا بين النماذج الأخرى مفتوحة المصدر، وسيساهم نشرها للعامة في الارتقاء بتقنيات الذكاء الاصطناعي التوليدي إلى مستويات جديدة من الجودة والكفاءة.

أضف تعليقك
paper icon