ما هو Chat GPT-4 للوسائط المتعددة الميزات الجديدة وكيفية الاستخدام

فريق التحرير M

سنتين ago

في الأيام القليلة الماضية وتحديدا يوم الثلاثاء الماضي، 14 مارس/آذار، شركة “أوبن إيه آي” (OpenAI) أطلقت GPT-4، وهو النسخة الجديدة من أنظمة النماذج اللغوية العاملة بالذكاء الاصطناعي، ولقد أحدث ذلك ضجة كبيرة. بحيث يعد نموذج لغة الجيل الرابع من الذكاء الاصطناعي أقوى بكثير من النموذج السابق ويمكنه فعل المزيد. إذا لم تكن لديك فكرة عن برامج الدردشة ChatGPT، في هذه المقالة قمنا بتجميع دليل شامل عن برنامج اللغة أو Chat GPT-4 للوسائط المتعددة بعدما قمنا بالبحث في الانترنت وفي موقع OpenAI، تابع القراءة للتعرف على نموذج الذكاء الاصطناعي هذا، ما هو Chat GPT-4، كيفية الاستخدام والمميزات الجديدة التي جاء بها.

ما هو Chat GPT-4؟

“GPT- 4” هو برنامج لغوي متعدد الوسائط، وهو أحدث نظام ذكاء اصطناعي لـ OpenAI حاليا الذي يعتمد عليه روبوت المحادثة الأشهر “شات جي بي تي” (ChatGPT).، ومعنى متعدد الوسائط اي انه قادر على تحليل الصور ومقاطع الفيديو، على عكس الإصدار السابق التي كانت “GPT-3.5” و GPT-3.

نسخة “GPT-4” تدعم روبوت “شات جي بي تي”، كما انها تدعم كذلك النسخة المدفوعة ChatGPT Plus ، باشتراك شهري 20 دولارا، بالإضافة إلى هذا فإن روبوت الدردشة GPT-4 متاح على مايكروسوفت بينج Bing chatbot، كما أكدت شركة مايكروسوفت، أنه يتم العمل على تطويره اكثر ليكون على متصفحها Edge.

من المؤكد أن يتفوق الطراز الأحدث في هذه السلسلة ، GPT-4 ، بشكل كبير على إصدارات GPT 3 و 3.5. سوف نتعمق أكثر حول هذه التحسينات المحددة في GPT-4 أدناه.

فهم أكثر لـ GPT-4 متعدد الوسائط

قد تكون على دراية بالقدرة المقيدة لنماذج GPT السابقة على فهم النص الذي ترسله إذا كنت قد استخدمتها. ومع ذلك ، فإن احد اهم التحديثات الاكثر اهمية في النموذج الجديد أنه متعدد الوسائط. بمعنى آخر ، GPT-4 يقبل المطالبات المتعلقة بكل من البيانات النصية والصورة. هذا يعني أن الذكاء الاصطناعي لن يستقبل الصورة فحسب ، بل سيقوم أيضًا بتفسيرها وفهمها. سيتم استخدام هذه المعرفة عند مزج المطالبات بالمدخلات النصية والمرئية. علاوة على ذلك ، ستغطي إمكانات الوسائط المتعددة الخاصة بـ GPT-4 جميع التنسيقات والأحجام والتنوعات للصور والنصوص ، بما في ذلك المستندات التي تحتوي على نصوص أو صور أو رسومات (سواء تم إنشاؤها بواسطة الكمبيوتر أو مرسومة باليد) أو لقطات شاشة. سيظل كل من إخراج GPT-4 وإدخال النص فقط يعملان.

استضافت OpenAI بثًا مباشرًا عبر الويب للمطورين حيث عرضت الشركة إمكانيات الوسائط المتعددة لـ GPT-4. تم التقاط نافذة Discord الخاصة بالتيار بالكاميرا ، وطُلب من GPT-4 شرحها بتفاصيل دقيقة.

كان الرد من النموذج ، الذي استغرق أكثر من دقيقة بقليل ، مفصلاً ودقيقًا تمامًا. تم اكتشاف جميع عناصر شاشة الإدخال تقريبًا من خلال الاستجابة. يحتوي GPT-4 على كل شيء ، بما في ذلك اسم الخادم في المنطقة العلوية اليسرى ، والعديد من القنوات الصوتية ، وقائمة بجميع أصدقاء Discord عبر الإنترنت في النافذة اليمنى.

خضع GPT-4 لاختبارات إضافية ، ساهم خلالها المشاركون بمجموعة متنوعة من القطع الفنية المتنوعة، بما في ذلك صور غريبة مثلا كانت هناك صورة لسنجاب يحمل كاميرا. وكان السؤال كالتالي لـ GPT-4 ، “ما الذي تجده مضحكًا في هذه الصورة؟”. مرة أخرى ، كان الرد مدهشا فكانت الإجابة من النموذج على أن الصورة مضحكة لأن السناجب غالبًا ما تستهلك المكسرات ولا تتصرف مثل البشر. لقد كان الامر محير للجميع فلقد استجاب الروبوت وقدم اجابة دقيقة للغاية مثل الانسان تماما.

وفي اختبار ثاني اكثر تعقيدا تم اخذ صورة لكتابة باليد، ثم تم تحميل الملف إلى خادم Discord المتصل بواجهة برمجة التطبيقات لـ GPT-4. ثم طُلب من النموذج “كتابة شفرة HTML / JS مختصرة لتحويل الصفحة إلى موقع ويب، ولقد كانت الدهشة كبيرة عندما قام GPT-4 بتجميع الكود، وأنتج موقعًا إلكترونيًا يعمل بشكل صحيح.

ماهو الفرق بين GPT-4 و GPT 3.5 و GPT-3 ؟

1- GPT-4 يقوم بتحليل الصور

إن أكبر فرق بين النموذج الجديد “GPT-4” وأسلافه هو أنه نموذج متعدد الوسائط ، مما يعني أنه يمكنه تحليل الكلمات والصور في وقت واحد. عندما تعرض عليه صورة ، يمكنه تحليلها، وربطها مع السؤال الذي تطرحه، ومن ثم توليد إجابة دقيقة كما ذكرنا في الامثلة المقدمة في الاعلى.

2- GPT-4 منطقي أكثر

تؤكد OpenAI أن GPT-4 الجديد الخاص بها أفضل من نموذج ChatGPT، خاصة في المهام التي تتطلب ابداعا أو التفكير المنطقي ، مثل تلخيص النصوص أو المقالات، بحيث يمكنه تحديد العبارات غير الضرورية او الدخيلة.

3. الكثير من الشخصيات المختلفة

يحتوي النموذج الجديد أيضًا على العديد من الشخصيات ، أو ما يشار إليه باسم “القابلية للتوجيه” ، وهي قدرة الروبوت على تغيير سلوكه وصوته عند الأمر. فمثلا أثناء استخدام الإصدار الحالي من ” Chat GBT” ، ستلاحظ أنه يتحدث بنبرة وأسلوب ثابت. أما مع الإصدار الجديد ، سيكون لدى المستخدم خيار طلب شخصية مناسبة للتحدث بنبرة وأسلوب مختلفين حسب نوع الشخصية.

4- يقدم GPT-4 معالجة أفضل

على الرغم من أن هذه النماذج اللغوية يتم تدريبها على كميات هائلة من البيانات النصية ، إلا أن هناك قيودًا على المقدار الذي يمكن أن يخزنه النموذج في ذاكرة قصيرة أثناء مناقشة حقيقية مع المستخدم. لا يتم اختبار هذه الذاكرة بعدد الكلمات ، ولكن من خلال الرموز”توكين” (Tokens). إذا تجاوز الروبوت الحد المسموح به ، فقد يفقد مسار الحوار. في نموذج GPT-3.5 ، كان هذا الحد 4096 رمزًا ، أو حوالي 8000 كلمة. ومع ذلك ، يسمح نموذج GPT-4 بأكثر من 32000 رمز كحد أقصى ، أو حوالي 64000 كلمة ، ما يعادل 50 صفحة من النص.

5- يدعم العديد من اللغات

على الرغم من أن اللغة الإنجليزية هي بلا شك اللغة المهيمنة في مجال البيانات ، لا سيما في الذكاء الاصطناعي ، فقد أظهر نموذج “GPT-4” قدرته على التحدث بـ 26 لغة مختلفة ، بما في ذلك العربية والإيطالية والتركية واليابانية والكورية ، بدقة كبيرة .

كيفية الوصول إلى GPT-4 الآن

للأسف ، لم يتم توفير GPT-4 للجميع بعد. اعتبارًا من الآن ، أتاحت OpenAI النموذج الجديد فقط لمستخدمي ChatGPT Plus مع حد أقصى للاستخدام. علاوة على ذلك ، يحصل مشتركو Plus أيضًا على وصول رمزي محدود إلى نسختين مختلفتين من GPT-4. البعض قادر فقط على استخدام محرك 8K الخاص بـ GPT-4 ، والذي يتمتع بسعة أصغر ، بينما يمكن لبعض المستخدمين استخدام محرك 32K ، والذي يوفر لهم حدًا أكبر من الكلمات. وفقًا لـ OpenAI ، سيتم تغيير هذا ديناميكيًا حسب الطلب. تحقق من تعليماتنا حول كيفية الحصول على GPT-4 هنا إذا كنت أحد عملاء ChatGPT Plus وتريد الوصول على الفور.

المصادر:

GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses

Be My Eyes uses GPT-4 to transform visual accessibility