المساعد الشخصي الرقمي

مشاهدة النسخة كاملة : كيف تتعرف الحواسب على الوجوه؟


Eng.Jordan
11-03-2012, 12:02 PM
- سائر بصمه جي
http://www.albahethon.com/photo//4/6-4eb25f6822ed6.jpg

بين كل زوج من الآذان يقبع عالم واحد هو: الوجه. كيف نعرف وجوهنا جيداً وأكثر من هذا.. تلك الوجوه التي نحبها؟ أي كيف نميّز وجهاً عن آخر ونجد بسرعة وجهاً مألوفاً في الازدحام؟ كيف تجد الأم ابنتها فوراً في الحضانة؟ أو رجل يعرف أخاه بعد عشرين عاماً مضى؟
معرفة الدماغ للوجوه
يقول فريق من علماء الكلية الجامعية بجامعة لندن إن الدماغ يتعرف أولاً إلى قسمات الوجه. وفي المرحلة الثانية، يقرر إن كان يعرف الوجه أو لا يعرفه. وإذا كان الوجه مألوفاً، فإن الدماغ في المرحلة الثالثة يضع اسماً له. ويقول الباحثون إنه إذا تعطلت مرحلة من المراحل الثلاث - كما يحدث في بعض أشكال فقدان الذاكرة - فإن الشخص المعني يمكن أن يفقد القدرة على التمييز بين الوجوه.
مع أن العقل البشري بارع في هذه المهارة، إلا أنه يمكننا نحن أن نُخْدَعَ بشعر شخص ملون أو إضافة لحية. إن لغز التعرف على وجه لا يعني أبداً أنه مسألة بسيطة. باستعمال آخر التقنيات وعلماء النفس وعلماء العصب لديهم الآن فقط لمحة عن كيفية الدماغ بالتعرف إلى الصور فهم بشكل متزايد يجدون أن السر يكمن ليس في عملية عصبية واحدة فحسب وإنما في العديد منها. مدخرة الأعصاب يجب أن تطلق سيالات عصبية غامضة تستولي على الصورة الكلية قبل أن يتعرف هذا الشخص على أية مجموعة أخرى وآلاف الخلايا العصبية لمراقبة التفاصيل تلاحظ درجة لون الجلد الرقيق أو زاوية فم واضحة.
يفترض العديد من العلماء أن العقل البشري يمكنه أن يتعرف على وجه بلحظة. يمكن الحاسوب أن يُبَرمَجْ ليفعل الشيء ذاته ومع ذلك.. السؤال كيف يكون ذلك؟ ماذا على الحاسوب أن يفعل ليحدّد ويتعرّف على وجه معين؟ ستعطي الإجابة عن هذا السؤال المعقد عائدات قوية في أجهزة حماية أفضل وربما حتى تقنيات صور متحركة جديدة مذهلة.
فك شِفرة (سمة وجه – ماغ شوت)
ضمن المكاتب المملوءة بالأدوات لمختبر ميديا في معهد ماسوشوستس للتكنولوجيا (MIT) جامعة كامبريدج، يختبر هناك أليكس نظاماً حاسوبياً يمكنه أن يتعرّف على وجه شخص من بين الآلاف بدقة مدهشة، وقد أعطى قاعدة بيانات لـ 7,562 صورة (اختلافات وجوه لثلاثة آلاف شخص). نظام "بينتلاند" يمكن أن يبحث بفعالية عن فرد بشكل تام بفك شِفرة (ماغ شوت – سمة وجه) للشخص بلقطة فورية مسطحة.
حتى عندما يغيّر الشخص وضعيته أو تعبيرات وجهه كأن يصفف تسريحة شعر جديدة أو يرتدي نظارات شمسية فإن البرنامج ينجح في التعرف عليه.
في اختبار لمئتين من الوجوه العشوائية فاق الحاسوب بدقته 95% عندما طُلِبَ منه أن يجد شبهاً للوجه في بيانات قاعدة الصور. مصمم نظام "بينتلاند" عالم حاسوب ميال إلى العلوم الرياضياتية، هذا النظام يدعى (فوتوبوك) أي كتاب الصور وهو يعالج (سمات الوجه – ماغ شوب) ليس كصور ولكن كمعلومات بصرية وهكذا لا يرى الحاسوب حقاً وجه شخص ما. وإنما يترجم كل صورة كشبكة معلومات وكما هو موضّح لفرع الرياضيات تُدعى نظرية المعلومات. صورة وجه أو بيت أو شجرة يمنح هذا النظام مجموعة معلومات إلى المشاهد ويحلل برنامج الحاسوب هذا المحتويات تلك المعلومات ويقارنها بقاعدة بيانات الصورة.
يستعمل الفوتوبوك طريقتين مقسمتين للتعرف على الوجوه, مشهد شمولي ثم تحليل صورة. في الجانب الشمولي يعطي الحاسوب صورة وجهية بنظرة عامة سريعة والتحقق من تتطابق الوجه سوية ككل. ثم بمعالجة الصورة كمجموعة معلومات مصفوفة. الفوتوبوك يبحث عن موجهات فردية أو أنماط رياضياتية وخاصة ذلك الوجه.
هذه الموجهات الخاصة تصف بالضبط كم ذلك الوجه يختلف عن صور وجهية مخزونة أخرى. الميزات الرئيسة للوجوه من ناحية المعلومات الفردية قد تتعلق أو قد لا تتعلق بالذي ندعوه أشكالاً مثل العيون والأنف والشعر. يقول "بينتلاند": "لكن هي العلامات التي تدل على خصائص فردية لذلك الوجه".
يدعو "بينتلاند" هذه الطريقة "وجه خاص" مستنداً إلى القيم الفردية الرياضياتية في "مساحة الوجه" أي المساحة المختزنة لحاسوب ثلاثي الأبعاد. والعمل مع مجموعة ثابتة لصور وجهية ومعالجتها كمجموعة مرصوفة ضخمة من المعلومات. يجد الحاسوب ميزات رئيسة للوجوه في قاعدة بياناتها ويجمعها ليشكل وجهاً واحداً.
يأخذ الحاسوب أساساً كل الوجوه ويعدلها ويفردها وجهاً خاصاً بشكل طيفي وبطريقة مشوشة لكل وجه. ثم يصنف "الفوتوبوك" وجهاً مستقلاً كاختلاف متفرد لوجه خاص. وهكذا كل وجه يصبح نسخة مستقلة لنمط معروف لهذه الصورة.
ومع ذلك يحمل هذا التحليل شفرة جيدة لعملية رقمية وهو يجري عملية ليست بعيدة جداً عما يعمله دماغ الإنسان. عندما تحدق امرأة إلى وجه حبيبها تحدث تلك الصورة أولاً كمجرد ضوء متبدد على شبكيتها. بالطبع هي ذبذبات شبكية عشوائية لا تعني شيئاً حتى تصبح مترابطة ومن خلال طريق لاشعوري ما لتلك الوجوه الموجودة بفكرة ضمنية وعندما سجل دماغها بأنه يرى وجهاً وليس شيئاً آخر فيباشر بتقدير خصوصية ذلك الوجه.
تحت هذه العملية الإدراكية الضمنية تقبع معرفة ضمنية أن البشر يختزنون وجوهاً داخل رؤوسهم.. ويساعد أن تلك الوجوه هي التي تميّز الناس عن بعضهم جيداً. لأن لدى تلك الوجوه ميزات للبحث عن العيون والأذنين والأنف والفم. وتصقل مثل هذه المعرفة كثرة الإمكانيات التي تعرض أية صورة وتضيق المجال للدماغ البشري لتلك الوجوه فيفسر ما يراه.
فهل يفعل هذا أيضاً نظام الحاسوب للتعرف على الوجه؟
إيجاد وجه في ازدحام
واحدة من أكبر المشكلات في التعرف على الوجه الرقمي وهو إيجاد وجه في صورة. يقول بينتلاند: "عندما يجد الحاسوب الوجه تكون أنت وصلت إلى منتصف الطريق. أصبح "الفوتوبوك" نبيهاً جداً عند إيجاد الوجوه في صور. حينئذ هو ينظر إلى (سمات وجه – ماغ شوب) العادية.
الجيل الأول لأنظمة التعرف على الوجه هي متاحة تجارياً مسبقاً. وهو ما يدعى (المنتج الوجه الحقيقي) يُستَخدَم فيه آلة تصوير فيديو وحاسوب شخصي لتوافق وجه مادة ما مع صورة مأخوذة ومخزنة مسبقاً. وتستخدم حديثاً آلات تصوير ثلاثية الأبعاد تجمع معلومات أكثر من سابقتها (إلى اليمين داخل المستطيل).

ماذا يحدث عندما تراقب آلة تصوير فيديو حية مشهداً وهي تشاهد شخصاً ما يدخل عشوائياً الغرفة؟ يقول "بابك موغادام" وهو عالم حاسوب في (MIT): "هذه مشكلة كبيرة جداً.. لا يعرف الحاسوب إلى أين ينظر. لهذا يجب أن نضع له آليات لكشف الرؤوس والسمات الوجهية وبهذا سيعرف الحاسوب إلى أين ينظر. على سبيل المثال أنت لا تبحث عن رأس على الأرض".
إيجاد وجه أثناء الازدحام طرح مشكلة مفادها كيف يمكن لنظام أمني خفي في المطار أن يبحث عن المارين أو كيف لهذا النظام في دائرة جباية الضرائب أن يتعرف فقط على الموظفين الأساسين. العمل على النظام الاختياري يدعى: "تسجيل وجه" وموغادام يعالج المشكلة عندما يتجه أحدٌ ما عشوائياً إلى عين الفيديو لنظام الحاسوب التعريفي وكيف تجد وجه شخص بين كل تلك الفوضى البصرية.
عندما يقدر ويجد الحاسوب حجم وجه يجب أن يقرر مَن هذا؟ وبذلك يتعرف على الوجه. في اختبار لـ 2500 سمة وجه بدل بينتلاند وزملاؤه الإضاءة والحجم ووجهة الرأس لستة عشر طالباً ذكراً متخرجين. استطاع الفوتوبوك أن يميز بدقة 96% منهم مع وجود تغيرات في الإضاءة و85% مع وجود تغيرات في توجيه استدارة الرأس و64% مع وجود تعديلات في الحجم. على العموم.. الاختبار أكد قوة النظام بدقة.
مختبر ميديا في معهد (MIT) ليس هو منظمة البحث البارزة الوحيدة لدراسة التعرف على الوجه بل هناك ممثل ريادي في هذا المجال وهي الشركة العلمية التحليلية (TASC) الموجودة في معهد ماسوشوستس للتحليل العلمي. طورت هذه الشركة نظام حاسوب يدعى (بصمة الوجه) (فيسبرينت) التي تستخدم أنموذجاً ثلاثي الأبعاد يصف ويميز الوجوه.
تأكيد الهوية
عندما يُميَّزْ شخص ما يجب التحقق من مسألة نهائية يطرح عندها الحاسوب هذا السؤال ويجيب عليه بدقة: "هل أنت حقاً الذي تقول بأنك أنت؟"
يقول "بينتلاند": أكثر أنظمة الأمن هذه الأيام تعتمد على التحقق والتي هي بالأصل مشكلة أسهل من التعرف. أنت تتعامل مع مجموعة أصغر بكثير من الاحتمالات. يسأل الشخص من هو أو هي؟ ومن ثم يقرر النظام إن كان ذلك حقيقياً أم لا.
تفعل هذا آلات المصرف النقدية بالسؤال عن رقم الهوية الشخصية قبل إعطاء النقود لكن يوجد أماكن أكثر تعقيداً وهي قاعة المحكمة قد تطلب بصمة الأصابع كمحدد للشخصية. مع ذلك تثبت بصمات الأصابع أو قزحية العين أو الأذن أنها مفيدة أكثر للتحقق من تمييز شخص.
لتقوية دقة "الفوتوبوك" في التحقق أضاف موغادام قوالب الميزة الفردية إلى هذا النظام. هذه الأشياء مثل خاصية عيون وأنوف وأفواه وهي تساعد في منع النظام أن يُخْدَعَ حينما يعمل أحد ما تصفيفة شعر جديدة أو يطيل لحية أو يرتدي نظارات أو فقط يُعدل تعبيراً وجهياً. وبخاصية الميزات المضافة إلى خاصية الوجوه تتراوح دقة التعرف حوالي 98%.

نظام بصمة الوجه (فيسبرنت) أنتجته وطورته الشركة العلمية التحليلية (TASC) للتعرف على الوجوه. يمكن أن يُولّد نموذجاً دقيقاً وأن يصور مخططاً وجهياً في تفصيل كبير.

تعليم النظام التثاؤب
يمكن لكِلا النظامين "الفوتوبوك وفيسبرنت" أن يتعلما وجوهاً جديدة وحدهما. وعندما يُعطى وجهاً جديداً يتأكد الحاسوب منه مراراً في مساحة الوجه ثم يقرر فيما إذا غير قابل للتعرف أو ينتج وجهاً جديداً ويعدله إلى وجه خاص.
يعتقد "بينتلاند" أن بهذه الدرجة من الدقة تصبح التطبيقات العملية عالماً حقيقياً، كما في مراكز الشرطة يجب أن تبقى ملفات ضخمة لسمات الوجوه للتعرف على المشتبه بهم بسرعة. أو مركز الجمارك حيث يجب أن تعرض وجوه الخارجين على القانون عند عبورهم الحدود. أو تسجيل ناخب, على سبيل المثال تريد الحكومة المكسيكية أن تجمع في ذاكرة حاسوبية لخمسين مليون صورة وجهية لتستأصل مشكلة الاقتراع المضاعف.
لإنجاز مثل هذه القدرة يجب أن يكون الحاسوب قادراً أن يعالج عدة مشاهد لرأس أحد ما, كالشكل الجانبي أو ثلاثة أرباع الشكل. وهذا يتطلب أنموذجاً جانبياً ومستوى معيناً وفهماً لتنوع التعابير الوجهية.
يقول عرفان عيسى، وهو باحث في معهد (MIT): عندما تنظر إلى صورة شخص ما, تستطيع أن تقول فيما إذا هو سعيد أو حزين أو مزدرٍ ونحن نريد أن نجعل الحاسبات تستبين أنماطاً وجهية معروفة كالابتسامة والتجهم أو الاختلاف بين الابتسامة الحقيقية والمزيفة.
للحصول على هذه الدقة قد توجه البحث إلى مساحة الصورة، مستخدماً رؤية الحاسوب ليحدد نموذج تعابير الناس ويراقبها ويقلدها وليكتشف هذا الحاسوب نموذجاً بأن الوجوه تعبر بحد ذاتها أصلاً. يرى الحاسوب العيون والشفاه تتحرك معاً حيث تتحرك السمات في آن ومن ثم تختفي.
يقول عيسى: إن بعض العضلات تتحرك أسرع والبعض أبطأ, ومن أجل تعبير يبدو حقيقياً فتسجيل الوقت يكون حرجاً.
من هذا النظام التفاعلي نجد أن جدول الخيارات يبدأ بالتعاظم. كتمارين التقليد للابتسامات والتجهمات. يرى عيسى أن الإمكانية لرسوم متحركة حقيقية هي إمكانية إحداث صور ثلاثية الأبعاد لنقل العمق العاطفي لهذه الرسوم. يقول عيسى: "علّمْنا النظام أن يتثاءب ويعطس وهو يأخذ دقيقتين، أما تقنيات الرسوم المتحركة فتأخذ يوماً كاملاً".
وهكذا فإن نظام الرسوم المتحركة الوجهية فورية بحيث يخطط مخططات أنماط حية لنموذج وجهي وبأن يفهم ضبط العضلات.
هذه الصورة محسنة لونياً والموجودة في نظام (بصمة الوجه) إنه يوضح درجة انحناء شكل ثلاثي الأبعاد للوجه.
تؤخذ النماذج نقطة ضوئية وراء نقطة من كشافات الحركة, يوحد نظام الرسوم المتحركة الوجهية هذا الإدخال مقلداً وجهاً. وتعود أصول كل ذلك إلى علم التشريح الإنساني. بيّن هذا النظام العديد من المزايا تكون قدرته بتصوير ابتسامة حقيقية وبمحاكاة رفع زوايا العين التي ترافق قلب الشفاه.. ومع فهم للإيحاءات الوجهية النموذجية فإنه يحيك الصور المتحركة إلى وجه فرد خلال جزء من الثانية. وهذا النظام سيولد حركات وجهية لرسوم متحركة صافية.

زملاء التمثيل الافتراضي
لكن لماذا نتوقف عند الوجوه فقط؟ لم لا نقلد أو حتى نؤتمت رسوماً متحركة لجسم كامل؟ لم لا ندرب حاسوباً ليراقب حركات دقيقة خاصة مثل "لاري بيرد" وهو يستلقي أو "شارلي شابلن" حين يتمايل أو ربما "جودي جارلاند " وهي تدندن؟. تخيل نظام حاسوب الذي يمكن أن يستوعب فرقة رقص بالية كبيرة ومن حركات الراقصين تُروى حكاية.
في مختبر "ميديا" مثل هذه الرؤى الطموحة ليست فقط برفع الحواجب "دليل دهشة أو احتمال" وإنما هي في أهداف مشروع صادق نبيل وذلك في نظام جديد يدعى "حياً" فمثلاً شخص يتجول أمام حدقة الحاسوب يستطيع أن يشاهد نسخة مطابقة دقيقة له أو لها يتحرك في عالم افتراضي ضمن حدود غرفة افتراضية مستقلة بقياس (5×5أمتار) يمكن للعملاء أن يتجولوا بحرية في أرض الخيال ويتفاعلوا مع كائنات افتراضية أخرى.
يهدف هذا المشروع ووفقاً لباحثة الحاسوب بانتي مايس في معهد (MIT) أن تبتكر بيئة صنعية حيث يمكن لشخص أن يتفاعل بوسائل طبيعية ومقبولة مع صور مطابقة للأصل ونصف ذكية ومستقلة حيث يظهر سلوكها طبيعياً ومعقولاً على حد سواء.
المطورة "جايل دجي. جوردون" لبرنامج (بصمة الوجه) نموذج الحاسوب المنتج. تحلل وجهاً هو مألوف لها جداً.. ألا هو وجهها.
بمعنى آخر.. صور متحركة آلياً عن طريق خوذة أو قفازات موصولة بمعطيات مشحونة عبر الأسلاك. فيه صورة فيديو لشخص حي وبشكل خَفي ما يُدعى "المرآة *****ية" التي تترجم حركات تلك الصورة الظلية لذلك الشخص مع الإيحاءات في فضاء ثلاثي الأبعاد وبشكل فوري.
في غضون ذلك.. يتجول مستخدم برنامج هذا النظام "زملاء التمثيل الافتراضي" باستقلالية في عالم يظهر فيه الإحساس ويتصرف بهذا النظام وفق الأهداف المتولدة ذاتياً وبالتالي يأخذ النظام نماذج من إيماءات المستخدم.
على سبيل المثال في العالم الافتراضي تأتي دمية متحركة افتراضية إلى اللعب لتأخذ المستخدم وعندما يشير إليها بالابتعاد تتجهم الدمية وتغادر وعندما يلوح لها عائداً أي انتهى هنا تعود الدمية مقهقهة. مكان افتراضي آخر يحضر جرذاً يهم بأكل وجبة, والطعام على منضدة افتراضية تحجز شهيته ومتبوعة أيضاً بإحساس زجر افتراضي فيفر الجرذ بعيداً.
في العالم الحقيقي حيث تحدث معظم الاتصالات دون كلمات مثل الحاسبات الإنسانية (مجهزة إنسانياً) تمثل أدوات تعليمية قيمة فهي عندما تستحوذ الأجسام والوجوه قوة مُعَبِرة. على الأغلب واحد (من هذه الحاسبات) يستطيع أي يدرك أمزجة ونوايا وإيماناً حقيقياً من الإيحاءات ومن التعبيرات أكثر من الكلمات.
خطوات عمل البرامج الحاسوبية للتعرف على الوجوه.
تقول مايس: إذا كان الحاسوب فيه وجوه أكثر إنسانية وأقل بروداً (عاطفي) ليعمل مع الناس، يمكنهم التفاعل معه طبيعياً أكثر. يمكن لكوادر شبيهات البشر أن تتمرن وتتعلم وتحرض الناس وتعطي تعليقات شخصية أو تنجز مهمات لك. لكن من أجل أن يحدث ذلك يجب على الحاسبات فهم التعبيرات الوجهية والإيحاءات كطريقة تواصل.
في العام 2001 تم استخدام أول نظام للتعرف على الأوجه في ولاية أمريكية للتقليل من الجريمة. ولكن هذا النظام فشل في التعرف على أي من المجرمين، حيث إنه لم يتمكن من الحصول على صور واضحة لهم وخصوصاً عند استخدامهم للأقنعة. كما تم في مطار بوسطن بأمريكا عمل تجربة أخرى لنظام أكثر تطوراً للتعرف على الأوجه إلا أنه بعد ثلاثة أشهر من التجارب فشل هذا النظام أيضاً.
وقد كشفت شركة لينوفو النقاب عن جهاز محمول جديد "IdeaPadU110" ويتميز هذا الجهاز بشاشته التي ليس لها إطار ووزنه الذي لا يزيد على 5.2 أرطال، علاوة على تقنية "VeriFace" التي تتيح للمستخدم الاستغناء عن كلمات المرور واستخدام الوجه بدلاً منها.
حائز على ثلاث جوائز في معرض الأجهزة الإلكترونية الاستهلاكية 2008. فهو ما يسهّل على المستخدم الدخول إلى الجهاز بسرعة وسهولة، وتستطيع تلك التقنية أيضاً تسجيل وجوه الأشخاص الذين يحاولون الدخول إلى النظام.




المصدر : الباحثون العدد 53 تشرين الثاني 2011