<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Advances in Cognitive Sciences</title>
<title_fa>تازه های علوم شناختی</title_fa>
<short_title>Advances in Cognitive Sciences</short_title>
<subject>Literature &amp; Humanities</subject>
<web_url>http://icssjournal.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>1561-4174</journal_id_issn>
<journal_id_issn_online>2783-073x</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.30514/icss</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid></journal_id_sid>
<journal_id_nlai></journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1398</year>
	<month>10</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2020</year>
	<month>1</month>
	<day>1</day>
</pubdate>
<volume>21</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>بازشناسی هیجان مبتنی بر همجوشی اطلاعات چندوجهی با استفاده از مدل ترکیبی یادگیری هیجانی مغز</title_fa>
	<title>Emotion recognition based on multimodal fusion using mixture of brain emotional learning</title>
	<subject_fa>روان شناسی شناختی</subject_fa>
	<subject></subject>
	<content_type_fa>مروری</content_type_fa>
	<content_type></content_type>
	<abstract_fa>&lt;strong&gt;&lt;span style=&quot;font-family:B Titr;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;مقدمه:&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;بازشناسی هیجان چندوجهی به واسطه دریافت اطلاعات از منابع حسی (وجه&amp;shy;&#8204;های) مختلف از یک ویدیو دارای چالش&amp;shy;&#8204;های فراوانی است و به عنوان روش جدیدی برای تعامل طبیعی انسان با رایانه مورد توجه محققان زیادی قرار گرفته است. هدف از این پژوهش، بازشناسی هیجان به طور خودکار از روی گفتار هیجانی و حالات چهره، مبتنی بر ساز و کارهای عصبی مغز بود. بنابراین، با توجه به مطالعات صورت گرفته در زمینه مدل&amp;shy;&#8204;های الهام گرفته از مغز، یک چارچوب کلی برای بازشناسی هیجان دومدالیتی با الهام از عملکرد کورتکس شنوایی و بینایی و سیستم لیمبیک مغز ارائه شود. &lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;strong&gt;&lt;span style=&quot;font-family:B Titr;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;روش کار:&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt; مدل ترکیبی و سلسله مراتبی پیشنهادی از دو مرحله یادگیری تشکیل شده بود. مرحله اول: مدل&amp;shy;&#8204;های یادگیری عمیق برای بازنمایی ویژگی&amp;shy;&#8204;های بینایی و شنوایی و مرحله دوم: مدل ترکیبی یادگیری هیجانی مغز (&lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;MoBEL&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;) بدست آمده از مرحله قبل&lt;/span&gt;&lt;/span&gt; &lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;برای همجوشی اطلاعات شنیداری&lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;_&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;دیداری. برای بازنمایی ویژگی&amp;shy;&#8204;های بینایی به منظور یادگیری ارتباط مکانی بین پیکسل&amp;shy;&#8204;ها و ارتباط زمانی بین فریم&amp;shy;&#8204;های ویدئو از مدل شبکه عصبی یادگیری عمیق &lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;3D-CNN&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt; استفاده شد. همچنین به منظور بازنمایی ویژگی&amp;shy;&#8204;های شنوایی، ابتدا سیگنال گفتار به تصویر لگاریتم مل&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;_&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;اسپکتروگرام تبدیل شده سپس به مدل یادگیری عمیق &lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;CNN&lt;/span&gt;&lt;/span&gt; &lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;برای استخراج ویژگی&amp;shy;&#8204;های مکانی&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;_&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;زمانی داده شد. در نهایت، اطلاعات به دست آمده از دو جریان فوق به شبکه عصبی ترکیبی &lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;MoBEL&lt;/span&gt;&lt;/span&gt; &lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;داده شد تا با در نظر گرفتن همبستگی بین وجه&amp;shy;&#8204;های بینایی و شنوایی و همجوشی اطلاعات در سطح ویژگی، کارایی سیستم بازشناسی هیجان را بهبود بخشد.&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;strong&gt;&lt;span style=&quot;font-family:B Titr;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;یافته&amp;shy;&#8204;ها:&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt; نرخ بازشناسی هیجان در ویدیو با استفاده از مدل ارائه شده بر روی پایگاه داده &lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:Times New Roman,serif;&quot;&gt;eNterface&amp;rsquo;05&lt;/span&gt;&lt;/span&gt; &lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;به طور میانگین 82 درصد شد. &lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;strong&gt;&lt;span style=&quot;font-family:B Titr;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt;نتیجه&amp;shy;&#8204;گیری:&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;span style=&quot;font-family:B Nazanin;&quot;&gt;&lt;span style=&quot;font-size:12.0pt;&quot;&gt; نتایج تجربی در پایگاه داده مذکور نشان می&amp;shy;&#8204;دهد که کارکرد روش پیشنهادی بهتر از روش&amp;shy;&#8204;های استخراج ویژگی&amp;shy;های دستی و سایر مدل&amp;shy;&#8204;های همجوشی در بازشناسی هیجان است.&lt;/span&gt;&lt;/span&gt;</abstract_fa>
	<abstract>&lt;strong&gt;Introduction&lt;/strong&gt;: Multimodal emotion recognition due to receiving information from different sensory resources (modalities) from a video has a lot of challenges and has attracted many researchers as a new method of human computer interaction. The purpose of this paper was to automatically recognize emotion from emotional speech and facial expression based on the neural mechanisms of the brain. Therefore, based on studies on brain-inspired models, a general framework for bimodal emotion recognition inspired by the functionality of the auditory and visual cortics and brain limbic system is presented.&lt;br&gt;
&lt;strong&gt;Methods:&lt;/strong&gt; The hybrid and hierarchical proposed model consisted of two learning phases. The first step: the deep learning models for the representation of visual and auditory features, and the second step: a Mixture of Brain Emotional Learning (MoBEL) model, obtained from the previous stage, for fusion of audio-visual information. For visual feature representation, 3D-convolutional neural network (3D-CNN) was used to learn the spatial relationship between pixels and the temporal relationship between the video frames. Also, for audio feature representation, the speech signal was first converted to the log Mel-spectrogram image and then fed to the CNN. Finally, the information obtained from the two above streams was given to the MoBEL neural network model to improve the efficiency of the emotional recognition system by considering the correlation between visual and auditory and fusion of information at the feature level.&lt;br&gt;
&lt;strong&gt;Results:&lt;/strong&gt; The accuracy rate of emotion recognition in video in the eNterface&amp;#39;05 database using the proposed method was on average of 82%.&lt;br&gt;
&lt;strong&gt;Conclusion:&lt;/strong&gt; The experimental results in the database show that the performance of the proposed method is better than the hand-crafted feature extraction methods and other fusion models in the emotion recognition.</abstract>
	<keyword_fa>بازشناسی هیجان چندوجهی, یادگیری هیجانی مغز, مدل ترکیب شبکه­‌های عصبی, همجوشی, یادگیری عمیق</keyword_fa>
	<keyword>Multimodal emotion recognition, Brain emotional learning, Mixture of neural networks, Fusion, Deep learning</keyword>
	<start_page>113</start_page>
	<end_page>127</end_page>
	<web_url>http://icssjournal.ir/browse.php?a_code=A-10-1-58&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Zeinab</first_name>
	<middle_name></middle_name>
	<last_name>Farhoudi</last_name>
	<suffix></suffix>
	<first_name_fa>زینب</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>فرهودی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email></email>
	<code>10031947532846008496</code>
	<orcid>10031947532846008496</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>PhD Student of Artificial Intelligence, Department of Computer Engineering, Science and Reserach Branch, Islamic Azad University, Tehran, Iran</affiliation>
	<affiliation_fa>دانشجوی دکتری هوش مصنوعی، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد علوم و تحقیقات، تهران، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Saeed</first_name>
	<middle_name></middle_name>
	<last_name>Setayeshi</last_name>
	<suffix></suffix>
	<first_name_fa>سعید</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>ستایشی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>setayesh@aut.ac.ir</email>
	<code>10031947532846008497</code>
	<orcid>10031947532846008497</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Professor of Department of Energy Engineering and Physics, Amirkabir University of Technology, Tehran, Iran </affiliation>
	<affiliation_fa>استاد گروه مهندسی پرتوپزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Farbod</first_name>
	<middle_name></middle_name>
	<last_name>Razazi</last_name>
	<suffix></suffix>
	<first_name_fa>فربد</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>رزازی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email></email>
	<code>10031947532846008498</code>
	<orcid>10031947532846008498</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Professor of Department of Electrical and Computer Engineering, Science and Reserach Branch, Islamic Azad University, Tehran, Iran</affiliation>
	<affiliation_fa>استاد گروه الکترونیک و مهندسی رایانه، دانشگاه علوم و تحقیقات آزاد اسلامی، تهران، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Azam</first_name>
	<middle_name></middle_name>
	<last_name>Rabiee</last_name>
	<suffix></suffix>
	<first_name_fa>اعظم</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>ربیعی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email></email>
	<code>10031947532846008499</code>
	<orcid>10031947532846008499</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Professor of Department of Computer Science, Dolatabad Branch, Islamic Azad University, Isfahan, Iran</affiliation>
	<affiliation_fa>استاد دانشکده مهندسی رایانه، دانشگاه آزاد اسلامی واحد دولت آباد، اصفهان، ایران</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
