دوره 21، شماره 4 - ( زمستان 1398 )                   جلد 21 شماره 4 صفحات 127-113 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Farhoudi Z, Setayeshi S, Razazi F, Rabiee A. Emotion recognition based on multimodal fusion using mixture of brain emotional learning. Advances in Cognitive Sciences 2020; 21 (4) :113-127
URL: http://icssjournal.ir/article-1-1067-fa.html
فرهودی زینب، ستایشی سعید، رزازی فربد، ربیعی اعظم. بازشناسی هیجان مبتنی بر همجوشی اطلاعات چندوجهی با استفاده از مدل ترکیبی یادگیری هیجانی مغز. تازه های علوم شناختی. 1398; 21 (4) :113-127

URL: http://icssjournal.ir/article-1-1067-fa.html


1- دانشجوی دکتری هوش مصنوعی، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد علوم و تحقیقات، تهران، ایران
2- استاد گروه مهندسی پرتوپزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران
3- استاد گروه الکترونیک و مهندسی رایانه، دانشگاه علوم و تحقیقات آزاد اسلامی، تهران، ایران
4- استاد دانشکده مهندسی رایانه، دانشگاه آزاد اسلامی واحد دولت آباد، اصفهان، ایران
چکیده:   (3924 مشاهده)
مقدمه: بازشناسی هیجان چندوجهی به واسطه دریافت اطلاعات از منابع حسی (وجه­‌های) مختلف از یک ویدیو دارای چالش­‌های فراوانی است و به عنوان روش جدیدی برای تعامل طبیعی انسان با رایانه مورد توجه محققان زیادی قرار گرفته است. هدف از این پژوهش، بازشناسی هیجان به طور خودکار از روی گفتار هیجانی و حالات چهره، مبتنی بر ساز و کارهای عصبی مغز بود. بنابراین، با توجه به مطالعات صورت گرفته در زمینه مدل­‌های الهام گرفته از مغز، یک چارچوب کلی برای بازشناسی هیجان دومدالیتی با الهام از عملکرد کورتکس شنوایی و بینایی و سیستم لیمبیک مغز ارائه شود.
روش کار: مدل ترکیبی و سلسله مراتبی پیشنهادی از دو مرحله یادگیری تشکیل شده بود. مرحله اول: مدل­‌های یادگیری عمیق برای بازنمایی ویژگی­‌های بینایی و شنوایی و مرحله دوم: مدل ترکیبی یادگیری هیجانی مغز (MoBEL) بدست آمده از مرحله قبل برای همجوشی اطلاعات شنیداری_دیداری. برای بازنمایی ویژگی­‌های بینایی به منظور یادگیری ارتباط مکانی بین پیکسل­‌ها و ارتباط زمانی بین فریم­‌های ویدئو از مدل شبکه عصبی یادگیری عمیق 3D-CNN استفاده شد. همچنین به منظور بازنمایی ویژگی­‌های شنوایی، ابتدا سیگنال گفتار به تصویر لگاریتم مل_اسپکتروگرام تبدیل شده سپس به مدل یادگیری عمیق CNN برای استخراج ویژگی­‌های مکانی_زمانی داده شد. در نهایت، اطلاعات به دست آمده از دو جریان فوق به شبکه عصبی ترکیبی MoBEL داده شد تا با در نظر گرفتن همبستگی بین وجه­‌های بینایی و شنوایی و همجوشی اطلاعات در سطح ویژگی، کارایی سیستم بازشناسی هیجان را بهبود بخشد.
یافته­‌ها: نرخ بازشناسی هیجان در ویدیو با استفاده از مدل ارائه شده بر روی پایگاه داده eNterface’05 به طور میانگین 82 درصد شد.
نتیجه­‌گیری: نتایج تجربی در پایگاه داده مذکور نشان می­‌دهد که کارکرد روش پیشنهادی بهتر از روش­‌های استخراج ویژگی­های دستی و سایر مدل­‌های همجوشی در بازشناسی هیجان است.
متن کامل [PDF 2631 kb]   (918 دریافت)    
نوع مطالعه: مروری | موضوع مقاله: روان شناسی شناختی
دریافت: 1397/12/15 | پذیرش: 1398/6/25 | انتشار: 1398/12/28

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

طراحی و برنامه نویسی : یکتاوب افزار شرق

Designed & Developed by : Yektaweb