Farhoudi Z, Setayeshi S, Razazi F, Rabiee A. Emotion recognition based on multimodal fusion using mixture of brain emotional learning. Advances in Cognitive Sciences 2020; 21 (4) :113-127
URL:
http://icssjournal.ir/article-1-1067-fa.html
فرهودی زینب، ستایشی سعید، رزازی فربد، ربیعی اعظم. بازشناسی هیجان مبتنی بر همجوشی اطلاعات چندوجهی با استفاده از مدل ترکیبی یادگیری هیجانی مغز. تازه های علوم شناختی. 1398; 21 (4) :113-127
URL: http://icssjournal.ir/article-1-1067-fa.html
1- دانشجوی دکتری هوش مصنوعی، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد علوم و تحقیقات، تهران، ایران
2- استاد گروه مهندسی پرتوپزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران
3- استاد گروه الکترونیک و مهندسی رایانه، دانشگاه علوم و تحقیقات آزاد اسلامی، تهران، ایران
4- استاد دانشکده مهندسی رایانه، دانشگاه آزاد اسلامی واحد دولت آباد، اصفهان، ایران
چکیده: (4131 مشاهده)
مقدمه: بازشناسی هیجان چندوجهی به واسطه دریافت اطلاعات از منابع حسی (وجههای) مختلف از یک ویدیو دارای چالشهای فراوانی است و به عنوان روش جدیدی برای تعامل طبیعی انسان با رایانه مورد توجه محققان زیادی قرار گرفته است. هدف از این پژوهش، بازشناسی هیجان به طور خودکار از روی گفتار هیجانی و حالات چهره، مبتنی بر ساز و کارهای عصبی مغز بود. بنابراین، با توجه به مطالعات صورت گرفته در زمینه مدلهای الهام گرفته از مغز، یک چارچوب کلی برای بازشناسی هیجان دومدالیتی با الهام از عملکرد کورتکس شنوایی و بینایی و سیستم لیمبیک مغز ارائه شود.
روش کار: مدل ترکیبی و سلسله مراتبی پیشنهادی از دو مرحله یادگیری تشکیل شده بود. مرحله اول: مدلهای یادگیری عمیق برای بازنمایی ویژگیهای بینایی و شنوایی و مرحله دوم: مدل ترکیبی یادگیری هیجانی مغز (MoBEL) بدست آمده از مرحله قبل برای همجوشی اطلاعات شنیداری_دیداری. برای بازنمایی ویژگیهای بینایی به منظور یادگیری ارتباط مکانی بین پیکسلها و ارتباط زمانی بین فریمهای ویدئو از مدل شبکه عصبی یادگیری عمیق 3D-CNN استفاده شد. همچنین به منظور بازنمایی ویژگیهای شنوایی، ابتدا سیگنال گفتار به تصویر لگاریتم مل_اسپکتروگرام تبدیل شده سپس به مدل یادگیری عمیق CNN برای استخراج ویژگیهای مکانی_زمانی داده شد. در نهایت، اطلاعات به دست آمده از دو جریان فوق به شبکه عصبی ترکیبی MoBEL داده شد تا با در نظر گرفتن همبستگی بین وجههای بینایی و شنوایی و همجوشی اطلاعات در سطح ویژگی، کارایی سیستم بازشناسی هیجان را بهبود بخشد.
یافتهها: نرخ بازشناسی هیجان در ویدیو با استفاده از مدل ارائه شده بر روی پایگاه داده eNterface’05 به طور میانگین 82 درصد شد.
نتیجهگیری: نتایج تجربی در پایگاه داده مذکور نشان میدهد که کارکرد روش پیشنهادی بهتر از روشهای استخراج ویژگیهای دستی و سایر مدلهای همجوشی در بازشناسی هیجان است.
نوع مطالعه:
مروری |
موضوع مقاله:
روان شناسی شناختی دریافت: 1397/12/15 | پذیرش: 1398/6/25 | انتشار: 1398/12/28