كيف تميز الوجوه المصنوعة بالذكاء الاصطناعي؟

في عام 2014 قام الباحث فيعلوم التعلم الآلي إيان غودفي بتقديم فكرة الشبكة التخاصمية المولِّدة Generative Adversarial Networks وتختصر في GANs.

يطلق عليه مولّد (Generative) لأنه يولّد وينتج صورًا متغيرة بدلًا من التنبؤ عن ماهية المدخلات (التنبؤ مثل أن يجيب عن سؤال هل اللون أحمر أم لا) ويطلق عليه شبكة تخاصمية (Adversarial Networks) لأن العملية تتم بالمقارنة بين شبكتين أو بالأصح يكونا في حالة تنافس أو مبارزة أو تخاصم، بمعنى أن تكون إحدى الشبكات تحاول خداع الأخرى بأن النسخ التي تنتجها حقيقية، بينما تعمل الشبكة الأخرى على التمييز والكشف عن ما هو حقيقي وما هو مزيف من المخرجات (مثلما يحدث مع الكاشير ومزوّر العملات، أحدهم يحاول تمرير خدعته والآخر يحاول اكتشاف الأمر).

الصور المعروضة في الأسفل هي النسخة الأولى من صور الشبكة التخاصمية المولِّدة أُنتجت في عام  2014 ، وكما هو واضح يسهل جدًا اكتشاف أنها غير حقيقية.

ولكن آخر صور مولّدة في عام 2017 كانت على نحو جيد جدًا لدرجة أن البشر يواجهون صعوبة في معرفة ما إذا كانت الصور مولّدة من الشبكة التخاصمية (أشخاص لا وجود لهم في الحياة الواقعية) أو أنها فعلًا وجوه لبشر حقيقين.

حسنًا، السؤال هنا كيف تستطيع اكتشاف صور الشبكة التخاصمية المولِّدة؟

في البداية ركز على الوجوه، لأنها طبقًا للباحثين تعتبر الأساس الذي يجب أن تولّي اهتمامك له أولاً حتى تستطيع التمييز ما إذا كانت الصورة مصنوعة من المولّد أم حقيقية، لأن في الغالب تكون دقة تفاصيل الوجه في الصور المولّدة ضعيفة مما يسهل اكتشافها مبكرًا.

1- شعر مرسوم بفرشاة وألوان زيتية:

من الطبيعي أن يحتوي الشعر المفرود أو المستقيم على بعض الخصل المستقيمة والمفرودة وعلى خصل أخرى متموجة بنعومة وانسيابية ويظهر مجملًا بشكل متناسق، ولكن كما في الصورة المعروضة فإن بعض الصور المولّدة تكون طبيعة الشعر فيها غير دقيقة وغير متناسقة وكأنها مرسومة بلطخة واحدة من فرشاة كبيرة وألوان زيتية.

شعر مرسوم بفرشاة وألوان زيتية
2- النصوص في الخلفية صعبة القراءة أو غير واضحة:

الشبكة التخاصمية المولّدة المدربة على الوجوه تواجه صعوبة في تحديد التفاصيل المميزة بالخلفيات ذات التفاصيل والأنماط والخطوط المميزة، بالإضافة إلى أن الشبكة أصبحت تعرض الإصدارات الأصلية والنسخ المتطابقة لبيانات التدريب، مما يعني أنهم يواجهون مشكلة في كتابة النماذج لأنها تظهر عادةً في اتجاه واحد فقط. مما دل على أن وجود صعوبة في النمذجة.

النصوص في الخلفية صعبة القراءة أو غير واضحة
3- خلفية الصور تبدو سريالية:

أحد الأسباب في أن الوجوه المولدة من الشبكة التخاصمية تبدو حقيقية هي أن غالبية الجهد وبيانات التعلم الآلي موجهة إليها (أي في وسط الصورة)، فهي على سبيل المثال تولّي اهتمام كبير للعيون ومكان الأذن ومدى واقعيتهما، ولكن بالنسبة للخلفية فإن الأمر يكون فوق طاقتها في هذه المرحلة، لذا ينتهي الأمر في أن تكون الخلفية أشبه للوحة سيريالية أكثر منها لخلفية واقعية.

خلفية الصور تبدو سريالية
4- عدم التماثل:

في بعض الحالات يصعب على الشبكة التخاصمية المولّدة السيطرة في حالة التفاصيل المتقابلة في مسافات متباعدة في الصورة، ففي الصور المُدخلة للتدريب تكون في العادة أقراط الأذن متطابقة الشكل والطول والعرض في كلا الأذنين بصورة طبيعية لأنها صورة حقيقية، ولكن الصور المولّدة من هذه البيانات تواجه صعوبة وخطأ متكرر في الأقراط غالبًا، مثال آخر على عدم التماثل هي (العيون) ففي النسخ المولّدة تكون العيون غريبة ومزعجة قليلًا فمثلًا قد تكونا تنظران في اتجاهين مختلفين، أو تكونا بلونين مختلفين، مع العلم أن البيانات المُدخلة لتدريب الشبكة ومساعدتها على الإنتاج لا تحتوي على نمط عيون مختلفة بل على العكس غالبيتهم عيون متطابقة، وبالمثل في الأذنين ففي بعض النسخ المولّدة تكون الأذنين في مواضع مختلفة في الطول والحجم أو الموضع.

عدم التماثل
 5- أسنان غريبة:

الشبكة التخاصمية المولِّدة تستطيع تجميع وإنتاج تفاصيل وشكل صوره بشكل عام، ولكن بالنسبة للأنماط المتشابهة والمتكررة مثل الأسنان فإنها تواجه صعوبة في تنسيق المحاذاة أو الحجم والترتيب، وهذه مشكلة قديمة في تقنية الشبكة التخاصمية المولِّدة ففي السابق أظهرت صعوبة في توليد صورة للأنسجة المركبة مثل (الطوب) بشكل طبيعي فكانت المحاذاة والأحجام للطوب غير سليمة وغير واقعية.

أسنان غريبة
6- شعر فوضوي:

الشعر الغير المرتب هو بالعادة أسهل جزء يمكن كشفه في نسخ الشبكة التخاصمية المولِّدة، لأنه قد يظهر في الصور المولّدة شعر يحتوي على اختلافات لا تكون في العادة تنتمي لنفس الشخص، فتارة يكون الشعر متطاير على الجوانب، أو شكله وانسيابه غريب على الأكتاف، أو بإلتفافات وتموجات غريبة.

شعر فوضوي

بالطبع الشعر بالعادة يكون متنوع ومختلف بسبب طبيعته، ولكنه أيضًا يحتوي على الكثير من التفاصيل الدقيقة والتي تبدو أنها صعبة الفهم والإتقان على الشبكة التخاصمية المولِّدة.

7- عدم التمييز بين أنماط الجنس البشري (مذكر - مؤنث):

هذه الشبكة التخاصمية المولِّدة قد تم تدريبها على عينة من مجموعة فرعية، وتحتوي هذه المجموعة على 200 ألف صورة من 10,000 صورة لوجوه المشاهير. في هذه المجموعة المستخدمة في التدريب لم نرى أي مثال لشخص لديه شعر في الوجه (لحية أو شارب) ويرتدي قرطيّ إذن ويضع مساحيق التجميل، ولكن كما نرى في المثال قد تُنتج مثل هذه الصور، وبشكلٍ عام فإن تقنية الشبكة التخاصمية المولِّدة تبدو وكأنها لا تستطيع التمييز بين صفات البشر المختلفة (بهذه الحالة نقصد التفريق بين مذكر ومؤنث).

من المهم أن نوضح هنا أن إظهار الشبكة التخاصمية المولِّدة هذه النسخ التي يصعب تحديد ما إذا كانت مذكر أو مؤنث، أو تحتوي على صفات من كل الجنسين (جنس غير منمط) لا يكفي أن يُحكم على الصورة بأنها غير حقيقية، على عكس مشكلة الشعر غير المرتب، فهو ليس فقط قطعة بصرية موجودة في الصور الفردية بل الكثير من التفاوت في مطابقة الإحصاءات عبر مجموعة كبيرة من الصور وصفاته التي تغطي مجموعة كبيرة من العينات.

عدم التمييز بين أنماط الجنس البشري
8- تدرّج لون قزحي:

بعض المناطق ذات اللون الأحادي (Monochrome) قد تُظهر نمط مشوش من اللون بشكل عمودي أو عرضي. في الحالة المعروضة في الصورة، فهي على الأرجح محاولة الشبكة تقليد ملمس الثياب أو الأقمشة، في النسخ القديمة من الشبكة التخاصمية المولِّدة هذه المشكلة كانت بارزة أكثر وتُسمى بالعادة أثر رقعة الشطرنج (Checkerboard Artifacts).

تحتوي بعض المناطق ذات الألوان الموحدة والفاتحة على صبغة متعددة الألوان، بما في ذلك الياقة، والرقبة وبياض العين (مثال العين غير معروض).

تدرّج لون قزحي - 1
تدرّج لون قزحي - 2
9- نماذج من صور حقيقية:

تأمل النصوص المكتوبة في الخلف ووضوحها، هذه الأقراط الموحّدة، والأسنان المصفوفة بشكل مرتب، بالإضافة إلى تفاصيل الشعر. مع أخذك لكل هذه النقاط في الحسبان جرّب ألعب هذه اللعبة والتي تَختبر قدرتك على التفريق بين الصور الحقيقية والصور المصنوعة بتقنية الشبكة التخاصمية المولِّدة:

نماذج من صور حقيقية
تحديث 2018, 13 December:

بعد عام واحد من التطوّر التدريجي لتقنية الشبكة التخاصمية المولِّدة، والذي أنتج الصور المضافة في الأعلى، قام نفس الباحثون بنشر الفيديو التالي “A Style-Based Generator Architecture for GANs" شاهد الفيديو هنا.

هذا الإنتاج الجديد من الصور يدل على التحسّن الملحوظ في كل الملاحظات المذكورة سابقًا في المقال.

تقريبًا جميع الصور المعروضة يصعب تمييز ما إذا كانت حقيقةٌ أم لا، ما عدا عدد قليل من النتائج والتي يظهر عليها أثر الذكاء الاصطناعي، وهي التي سنتحدث عنها هنا.

عدم التماثل:

في المعدل المتوسط من الوجوه المولّدة من مجموعة البيانات المعتمدة على 70 ألف صورة مأخوذة من مستخدمي برنامج فليكر (Flickr) من جميع أنحاء العالم، يظهر بها قرط إذن في الأذن اليمنى (يسار الصورة) ولا يظهر قرط آخر على الأذن اليسرى. الملاحظة هنا ليست عما إذا كان هناك قرط إذن واحد يعد أمر صحيح أو خاطئ أو هو أمر يعتمد عليه في التمييز بين الصور الحقيقية وغير الحقيقية، ولكن عما إذا كان هذا النمط شائع في البيانات المُعتمد عليها. لاحظ الأذن غير المتماثلة في الصورة اليمنى، فهي نمط أخر من عدم التماثل، وأيضًا الحول الذي يظهر على العيون (العينين تنظران في اتجاهين مختلفين).

عدم التماثل
أسنان غريبة:

الأسنان الغريبة لا تزال تظهر على الصور، ولكن في هذه المرة يجب أن تنظر بقرب أكثر للصورة وتتفحصها، في المثال المعروض تظهر الأسنان بصفّةٌ غريبة.

أسنان غريبة
شعر غير مرتب:

لا تزال هذه المشكلة موجودة، ولكن بنتائج متحسنة أكثر عن السابق.

شعر غير مرتب
عرض تصويري:

في هذه الصورة تظهر بقعة ألوان تشبه الألوان المائية، ولا يُعرف لماذا ظهرت هنا، في الأعمال السابقة استخدموا شبكة معالجة فائقة الدقة لتحسين صور التدريب، ولكن لا يمكن استخدام تلك الشبكة المعالجة على هذه الصورة لأن القميص سيظهر كله بألوان زاهية غير واقعية.

عرض تصويري

المصدر:

Medium.com - By Kyle Mcdonald, published on Dec 6 ,2018