الذكاء الاصطناعي في صناعة المحتوى والمحتوى العربي

تتسابق الجهات والمؤسسات في عالمنا الرقمي الحديث على بناء وجودها الرقمي، والذي لا يكتمل إلا بصناعة محتوى يَصِل بينها وبين جمهورها وعملائها يجذبهم ويناقش اهتماماتهم، ويُعرّف المحتوى بأنه كل ما يتضمنه العالم الرقمي من المعلومات والوسائط، سواءً كانت مكتوبةً أو مرئيةً أو مسموعةً. وتُشكل صناعة المحتوى جزءاً رئيسياً من وظائف التسويق والإعلان، وهي التحدي الأكبر بالنسبة لمختصي التسويق، إذ أشار 85% من المشاركين من مختصّي التسويق في استطلاعٍ أجرته شركة البيانات الدولية IDC إلى أنهم يشعرون بالضغط جراء الحملات الإعلانية التي يُطلب منهم إنتاجها في أوقاتٍ قصيرةٍ.

إن تدفق المعلومات الهائل الذي نشهده اليوم يُشكل تحدياً كبيراً على المتلقّي أيضاً، فكيف يتخيّر المحتوى المناسب من بينها؟ وهو كذلك تحديٌ أكبر بالنسبة لمنتجي المحتوى، فكيف يستطيعون الاطلاع كلّ المحتوى الموجود على الإنترنت ليختاروا ما يفيدهم فيعملهم؟ وكيف سيضيفون لمستهم الخاصة على المحتوى المُنتج؟ والسؤال الأهم هو كيف سيُواكبون السرعة التي تتدفق بها المعلومات وطلبات العملاء لتقديم محتوى في وقتٍ وجيزٍ دون الإخلال بالجودة والقيمة؟

على الرغم منأن كتابة المحتوى وصناعته تبدو للوهلة الأولى عمليةً بشريةً فكريةً إبداعيةً بحتةً، إلا أن الذكاء الاصطناعي يستطيع اختصار الكثير من المهام التكرارية الروتينية التي تتضمنها هذه الصناعة، فبدلاً من مطالعة مئات الصفحات وقراءة عشرات المستندات حول موضوعٍ معيّن، يُمكن لأدوات الذكاء الاصطناعي تلخيصها واستخلاص المهم منها، ويُمكن للمصممين أتمتة المهام المتكررة في تعديل الصور، واستخدام البحث الذكي للعثور على الصور التي يحتاجونها، وكل ذلك هدفه الأول اختصار الوقت على صانع المحتوى ليستثمره في مهامٍ أكثر تعقيداً وإبداعاً.

الخوارزميات المستخدمة في صناعة المحتوى

يساعد الذكاء الاصطناعي في إنشاء ملخصاتٍ نصيةٍ وإصداراتٍ قصيرةٍ ومتسقةٍ من المستندات الطويلة، وهذا يتطلب خوارزمية لفهم المستند الأساسي ثم استخلاص المعنى والتفاصيل الهامة وتنسيقها في ملخصٍ واحدٍ. ومن حيث قدرات الذكاء الاصطناعي، يُعد مجالي فهم النص وفهم القراءة المسموعة مجالان نشيطان للبحث، ويشمل تلخيص المستندات النصية نوعين من التلخيص. النوع الأول هو التلخيص الاستخراجي، وفيه تُستخلص الجمل المهمة مباشرةً كما هي من المستند باستخدام الأساليب الإحصائية واللغوية والرسومية أحياناً، حيث لا تفهم الأداة معنى الجملة عند استخدام الأسلوب الاحصائي، بل تختار الجمل بناء على بعض المقاييس الإحصائية، مثل طول الجملة، وتكرار المصطلح، ووجود الكلمات المفتاحية، ويُستخدم التعلم غير الموجّه للعثور على تشابه الجمل وترتيبها لتوليد التلخيص الاستخراجي.

النوع الأخر من أساليب التلخيص هو التلخيص التجريدي وهو أقرب للأداء البشري، وتُستخدم فيها خوارزميات معالجة اللغة الطبيعية المتقدمة، ويتعامل مع مشاكل الاستدلال وتوليد اللغة الطبيعية، وهو أصعب وأكثر تعقيداً من النوع الأول. وقبل استخدام أيٍّ من أسلوبي التلخيص، يتطلب تجهيز البيانات ومعالجتها مسبقاً، وتتضمن المعالجة المسبقة عدداً من الخطوات، مثل تحديد الجملة، أي من أين تبدأ وتنتهي، إزالة الكلمات المكررة وغير الضرورية، إعادة الكلمات إلى جذورها وأصولها، مثل كلمة "يكتب"أصلها "كتبَ"، وضع علامات تحديد جزء من الكلمات، مثل الاسم، الفعل،الظرف، الصفة، وهكذا.  

تُستخرج الجمل المهمة مباشرةً من المستند الأصلي باستخدام الأساليب الاحصائية في التلخيص الاستخراجي(المصدر)

تتعدى مساهمة الذكاء الاصطناعي مجرد مهمة تلخيص المستندات، بل تشمل أيضاً مساعدة كاتب المحتوى في كتابة محتوى متكاملٍ، مثل تقارير بيانات الأعمال، والبريد الالكتروني المخصص،كما أن هناك العديد من تطبيقات الصحافة الآلية المستخدمة في غرف الأخبار في جميع أنحاء العالم، مثل كتابة المحتوى، والتحقق من الحقائق، ومتابعة الأخبار الزائفة. حيث تستخدم وكالة أسوشيتد برس الذكاء الاصطناعي لكتابة آلاف التقارير الرياضية، وتستخدم صحيفة واشنطن بوست أداة توليد اللغة الطبيعية الداخلية لإنشاء مقالاتٍ إخباريةٍ ومنشورات وسائل التواصل الاجتماعي، وهذه الأداة عبارةٌ عن عمليةٍ برمجيةٍ تتضمن تحويل البيانات إلى محتوى لغوي، وتُستخدم في تبسيط فهم الرسومات البيانية للأشخاص الذي لا يملكون خبرةً في تحليل البيانات، وتُعد فرعاً من فروع الذكاء الاصطناعي.

من أكثر التقنيات شيوعاً والقائمة على المحتوى أيضاً هي أنظمة التوصية المُصممة لزيادة تفاعل المستخدم وتحسين عملية التسويق، وهي فئةٌ فرعيةٌ من نظام تصفية المعلومات التي تسعى للتنبؤ بالتصنيف أو التفضيل الذي سيعطيه المستخدم لعنصرٍ ما، وتحليل سلوك الشراء الفردي واكتشاف الأنماط التي تساعد في تزويد مستخدم معين باقتراحات المنتجات التي تتوافق مع اهتماماته من خلال توظيف تقنيات تعلم الآلة. وتُستخدم على نطاق واسع للتوصية بالأفلام، المقالات، المطاعم، أماكن الزيارة، ومنتجات الشراء.

الذكاء الاصطناعي والمحتوى العربي

أصبح من الضروري للأعمال التجارية التي تعمل باللغة العربية تطبيق تقنيات الذكاء الاصطناعي على مستنداتها الأصلية بدلاً من اللجوء إلى الترجمة التلقائية لهذه المستندات، مما يعني الحاجة إلى استحداث حلول ذكاءٍ اصطناعي مخصصةٍ تدعم اللهجة، وفهم اللغة العامية، وفهم السياق الفني والكلمات خارج القاموس، وفهم الأنواع المختلفة من النصوص. فاللغة الطبيعية ذاتُ تراكيب معقدةٍ، وتوظيفها في السياق المُستعار من لغةٍ أخرى ببساطة لن يعمل بشكلٍ جيدٍ، فالغموض في اللغة العربية يختلف عما هو عليه في اللغة الإنجليزية، وهذا يعني أن النماذج المخصصة لكل لغة ستتفوق على النماذج المستعارة عبر اللغات التي لم تُدرّب على اللغة التي نعنيها.

لوسيديا هي نموذجٌ للمنصات المخصصة للغة العربية وأنطلقت من المملكة العربية السعودية، فهي منصةٌ لتحليل المحتوى العربي بتقنيات الذكاء الاصطناعي في منصات التواصل الاجتماعي، وتوظف المنصة تقنيًا تمعالجة اللغة الطبيعية لتحليل المحتوى واستنباط اهتمامات الآخرين من خلاله، واستدلال اللهجات، وتحليل المشاعر، وتصفية المنشورات والتغريدات المزعجة، وتحديد الحسابات الوهمية، وتحليل شخصية الكاتب وتوقع جنسه. وترصد لوسيديا باستمرارٍ محتوى أكثر من 150 موقعٍ ومدونةٍ حول العالم عبر تحليلٍ دقيقٍ للغة العربية الفصحى أو العامية بمختلف اللهجات. 

https://www.youtube.com/watch?v=GPxFlZDPnsw

(المصدرLucidyaAnalytics)

هناك مثالٌ آخر على تطبيقات الذكاء الاصطناعي على صناعة المحتوى المخصصة للغة العربية، وهي خدمة لبلب السحابية للبحث والمدعومة بالذكاء الاصطناعي، والتي تستفيد من أدوات معالجة اللغة الطبيعية وتقنيات الفهرسة لتساعد في الحصول على نتائج ملائمةٍ وأكثر صلةٍ لأكبر عدد من المستخدمين، وتدعم البحث ضمن النصوص العربية بشكلٍ خاص إلى جانب الإنجليزية. وتتضمن ميزات البحث الشائعة مثل: الإكمال التلقائي، التصحيح الإملائي، المرشحات، البحث المتقدم والسريع واللحظي، وتحليل نتائج البحث.

اشتهرت مؤخراً شركة موضوع الأردنية كشركةٍ مهتمةٍ بالمحتوى العربي كذلك، حيث توظف تقنيات الذكاء الاصطناعي كتعلم الآلة ومعالجة اللغة الطبيعية لتقديم تجربة مستخدمٍ جذابة للجمهور العربي. وتعمل الشركة على تطوير مساعدٍ صوتي يعمل بالذكاء الاصطناعي ومتخصصٍ باللغة العربية أطلقت عليه اسم "سلمى"، وهدفه المساعدة على تقديم محتوى عربي ذو صلةٍ بالمستخدمين من مصادر موثوقة.

أدوات الذكاء الاصطناعي المستخدمة في صناعة المحتوى

ROUGE-N

مقياس لتقييم دقة وجودة التلخيص والترجمة الآلية للنصوص، ويعمل المقياس بمقارنة الملخص الآلي بملخصٍ مرجعي يُنتجه إنسان.

مجموعة أدوات اللغة الطبيعية NLTK  

هي منصة تستخدم لبناء البرمجيات بلغة بايثون وتعمل مع بيانات اللغة البشرية لتطبيقها في معالجة اللغة الطبيعية الإحصائية، وتحتوي على مكتبات معالجة النصوص تتضمن الترميز، التحليل، التصنيف، وضع العلامات، والاستخلاص الدلالي.

أداة إنشاء المحتوى بأسلوب كاتبك المفضل

رمز برمجي مفتوح المصدر للتلخيص الآلي للمستندات (إنجليزي/عربي)

المصطلحات
المراجع