كيف تعمل النماذج المفتوحة على تحويل إنشاء أصول الذكاء الاصطناعي

كيف تعمل النماذج المفتوحة على تحويل إنشاء أصول الذكاء الاصطناعي

كشتيج ديكسيت، مؤسس SaaS في زيو، خريج YC، يقوم ببناء منتجات مدفوعة بالذكاء الاصطناعي يستخدمها أكثر من مليون مستخدم حول العالم.

قبل بضع سنوات، كانت مختبرات الحدود مثل OpenAI وGoogle DeepMind وMeta وTencent تهيمن على إنتاج الأصول المعتمدة على الذكاء الاصطناعي. لقد استثمرت بشكل كبير في قوة الحوسبة والبيانات المملوكة، ولكن النماذج الأكثر تقدمًا تُحتفظ عمومًا خلف واجهات برمجة التطبيقات (APIs) واتفاقيات عدم الإفصاح.

واجهت المبادرات مفتوحة المصدر صعوبة في التنافس على هذا النطاق. ومع ذلك، تغيرت الصورة. وجدت تحليل Epoch AI أن النماذج ذات الأوزان المفتوحة تتأخر الآن عن المعايير ذات الأوزان المغلقة بـ ثلاثة أشهر فقط في المؤشرات الأساسية للقدرة. ​

من منظوري كمؤسس ومدير تنفيذي، يمكن لتحسين نماذج مفتوحة المصدر أن يفتح عدة فرص للمبدعين والمطورين. تتيح لك هذه النماذج استضافة أدوات إنتاج الأصول ذات الجودة الاحترافية دون رسوم متكررة أو ارتباط بموفر محدد.

لكن اعتماد هذه النماذج يتطلب النظر في عوامل مثل نوع الدعم الذي تحتاجه وما إذا كان لديك المهارات اللازمة داخليًا لإدارة الأدوات.

دعونا نلقي نظرة على بعض التقدمات الرئيسية في نماذج مفتوحة المصدر قبل أن أشارك بعض الرؤى حول ما يجب أن يعرفه المطورون قبل تنفيذ هذه الأدوات.

توليد الفيديو

تحدد نماذج مثل Sora من OpenAI وKling من Tencent معيار الحركة السلسة والتفاصيل لنماذج توليد الفيديو.

تحسنت النماذج مفتوحة المصدر بشكل ملحوظ في السنوات الأخيرة. ​على سبيل المثال، يمكن لـ Wan2.2 التعامل مع الحركة المعقدة والجماليات، وفقًا لأبحاث الصناعة من SiliconFlow. وجدت تحليل WhiteFiber أن LTX-Video يمكنه إنتاج “فيديوهات 24 إطار في الثانية بدقة 768×512 بسرعة أكبر مما يستغرقه مشاهدتها على NVIDIA H200.” ​

نظرًا لأن النماذج مفتوحة المصدر غالبًا لا تتطلب من المستخدمين الدفع للوصول إلى خدمات استنتاج الذكاء الاصطناعي، وجدت أبحاث من MIT أن تكلفة تشغيل الاستنتاج هي 87% أقل على النماذج المفتوحة.​​

الأصول ثلاثية الأبعاد

تم تصميم نماذج توليد الأصول ثلاثية الأبعاد لتحويل صورة أو نص إلى شبكة ثلاثية الأبعاد ذات قوام جاهز للعرض لمحركات الألعاب أو تجارب الواقع المعزز.

تحوّل TRELLIS.2 من ميكروسوفت الصور إلى شبكات عالية الدقة باستخدام هيكل OmniVoxel. يعيد TripoSR من Stability AI إعادة بناء الكائنات الكاملة من الصور الفردية، متفوقًا على البدائل في معايير الدقة.

عندما تختار الفرق نماذج مفتوحة للإنتاج، غالبًا ما يكون ملكية البيانات عاملًا حاسمًا. تتطلب واجهات برمجة التطبيقات التابعة لجهات خارجية مشاركة المدخلات خارج البنية التحتية الخاصة بك، حيث تكون خاضعة لسياسات الموفر. بالنسبة للفرق التي تعمل تحت اتفاقيات عدم الإفصاح أو اللوائح مثل النظام العام لحماية البيانات، يمكن أن تساعد استضافة البيانات الداخلية في ضمان ملكية البيانات.

الصور والقوام

​​يمكن لنماذج توليد الصور إنشاء مرئيات وقوام عالية الدقة بناءً على الأوامر. ولها استخدامات متنوعة، تشمل كل شيء من الإعلانات إلى قوائم التجارة الإلكترونية إلى محتوى التسويق إلى أصول الألعاب.

شهدت توليدات الصور مفتوحة المصدر، التي رعتها Stable Diffusion، تحسنًا في السنوات الأخيرة. ​على سبيل المثال، Flux 2 Dev من مختبرات Black Forest هو أداة تحويل النص إلى صورة يمكنها التعامل مع تشريح معقد وتركيبات عالية الدقة من خلال المحولات المستقرة. يولد النموذج الأولي CHORD من Ubisoft رسم كامل قائم على الفيزياء من الأوامر النصية.​​​

تدور النماذج المفتوحة حول نقاط التحقق، وهي لقطات من أوزان النموذج، وعادةً ما يتم ضبطها مجتمعيًا للأغراض الجمالية أو التجارية المحددة.

نظرًا لأن العديد من نقاط التحقق هي ذات أوزان مفتوحة، يمكنك تعديلها، وفحصها، أو حتى دمجها، مما يجعل عملية التكرار أسرع من العمل داخل واجهة برمجة التطبيقات المغلقة. على بعض المنصات، تظهر نقاط تحقق جديدة تقريبًا كل يوم، والتي تستهدف مجالات مثل أنماط الأفلام القديمة أو الرسوم النظيفة للمنتجات.

الصوت والصوت

مع الذكاء الاصطناعي الصوتي، Stakes أعلى من البيانات نفسها، بما في ذلك نبرة العلامة التجارية، وتفاعلات العملاء، والفروق الإقليمية. كان إنشاء أصوات طبيعية – سواء كان استنساخًا أو رواية أو مزامنة الكلام مع الفيديو – يتطلب في السابق تسوية بين الجودة والسيطرة على البيانات.

ومع ذلك، أصبحت النماذج المفتوحة أفضل في التعامل مع التفاصيل الدقيقة مثل التنغيم والإيقاع، مما يجعل المخرجات تبدو أقرب بكثير إلى الكلام البشري الحقيقي. على سبيل المثال، تم تضمين العديد من النماذج ذات الأوزان المفتوحة الآن في قائمة تصنيفات Artificial Analysis لأفضل نماذج تحويل النص إلى كلام.​

نظرًا لأن النتائج المماثلة متاحة باستخدام أدوات مستضافة ذاتيًا، يمكن أن تصبح النماذج المفتوحة اعتبارًا جادًا، وهو ما يكون ذا أهمية خاصة لإدارة القضايا المتعلقة بالخصوصية والامتثال وملكية البيانات على المدى الطويل.

خريطة طريق عملية للاعتماد

​العمل مع نماذج مفتوحة المصدر يغير شكل مسؤولياتك. يمكنك الحصول على السيطرة على البيانات، والتخصيص، وهيكل التكلفة، ولكنك تتولى أيضًا مسؤولية البنية التحتية، والموثوقية، والسلامة.

بعيدًا عن تبديل الأدوات، يكون التركيز الرئيسي على بناء القدرات لإدارة هذه النماذج داخليًا. ​تفتقر العديد من نماذج الأوزان المفتوحة إلى الدعم الذي تقدمه مختبرات الحدود، وغالبًا ما يتطلب تصحيح الأخطاء خبرة داخلية في تعلم الآلة. من تجربتي، يمكن أن تستغرق الإعدادات الأولية عدة أسابيع. الجانب الإيجابي هو التحكم الشامل وسرعة الابتكار.

بعد أن استخدمت هذه النماذج في منظمتني لتطوير منتجات SaaS، إليك خمس مبادئ يمكن أن تساعد عند الانتقال إلى المصادر المفتوحة:​

• قم بإجراء تجارب استراتيجية. ابدأ بوظيفة غير حاسمة. تحتاج النماذج المفتوحة إلى ضبط وقد لا تكون المخرجات الأولية جاهزة للإنتاج. تساعد الاختبارات الداخلية على تقييم الجودة والتكلفة دون مخاطر.

• تأمين البنية التحتية. اعتبر البنية التحتية شيئًا تصممه. تعمل النماذج المفتوحة على موارد الحوسبة الخاصة بك، لذا فإن التوسع والمراقبة والسيطرة على التكاليف هي مسؤوليتك. بدون حدود، يمكن أن تمحو تكاليف GPU وتكاليف التوكن المدخرات.

• قم ببناء حواجز حماية. غالبًا ما لا تأتي النماذج المفتوحة مع وسائل حماية مضمنة. يمكن أن يساعد تسجيل المخرجات، وإصدار النماذج، وإضافة مراجعة بشرية في الحفاظ على الموثوقية.

• رفع مهارات الفرق. تجعل المصادر المفتوحة الحدود بين العمل الهندسي والإبداعي غير واضحة. تتحرك الفرق التي تفهم كلا الجانبين بشكل أسرع وتحقق قرارات أفضل.

• تتبع العائد على الاستثمار بدقة. انظر إلى ما وراء التكلفة لكل استفسار. غالبًا ما تظهر المكاسب الحقيقية في سرعة التكرار، والتحكم الأقوى في البيانات، والامتثال الأفضل.

بينما تحدد مختبرات الحدود الوتيرة وتواصل التقدم، تتقدم المجتمعات مفتوحة المصدر وتحقق عدة مزايا رئيسية للعمل مع إنتاج الأصول المرتبطة بالذكاء الاصطناعي.

من خلال فهم المتطلبات، يمكن للنماذج مفتوحة المصدر غالبًا تقليل مخاطر الاعتماد على واجهات برمجة التطبيقات مثل حدود المعدل، وزيادة الأسعار، والتعرض للبيانات، مما يجعلها خيارات أكثر تنافسية مع تطور مشهد الذكاء الاصطناعي.

بينما تلحق نماذج الأوزان المفتوحة بالتصنيفات واختبارات المعايير، فإن الاعتبار الأكبر هو ما إذا كانت المنظمات مستعدة للالتزام بمسؤولية البنية التحتية لإدارة نماذج الذكاء الاصطناعي داخليًا. ​​​


مجلس تكنولوجيا فوربس هو مجتمع خاص بدعوة فقط لمتخصصي تكنولوجيا المعلومات والتقنية من الدرجة الأولى.

About ياسين الحربي

ياسين الحربي صحفي تقني مهتم بأحدث الأجهزة الذكية والابتكارات الرقمية، ويعمل على تحليل المنتجات التقنية ومقارنة المواصفات بدقة.

View all posts by ياسين الحربي →