Ravanbakhsh M, Setayeshi S, Pedram M M, Mirzaei A. Evaluation of implicit emotion in the message through emotional speech processing based on Mel-Frequency Cepstral Coefficient and Short-Time Fourier Transform features. Advances in Cognitive Sciences 2020; 22 (2) :71-81
URL:
http://icssjournal.ir/article-1-1082-fa.html
روانبخش مهسا، ستایشی سعید، پدرام میرمحسن، میرزایی آزاده. ارزیابی هیجان ضمن پیام از طریق پردازش گفتار هیجانی مبتنی بر استفاده از ویژگیهای MFCC و STFT. تازه های علوم شناختی. 1399; 22 (2) :71-81
URL: http://icssjournal.ir/article-1-1082-fa.html
1- دانشجوی دکتری زبانشناسی شناختی، موسسه آموزش عالی علومشناختی، تهران، ایران
2- دانشیار گروه مهندسی هست8های، دانشکده فیزیک و انرژی، دانشگاه صنعتی امیرکبیر، تهران، ایران
3- دانشیار گروه مهندسی الکترونیک و کامپیوتر، دانشکده فنی و مهندسی، دانشگاه خوارزمی، تهران، ایران
4- استادیار گروه زبانشناسی، دانشکده ادبیات و زبانهای خارجی، دانشگاه علامه طباطبائی، تهران، ایران
چکیده: (3103 مشاهده)
مقدمه: گفتار مؤثرترین ابزاری است که انسانها برای انتقال اطلاعات از آن استفاده میکنند. گوینده در خلال گفتار خویش علاوه بر واژگان و دستور زبان اطلاعاتی همچون سن، جنسیت و حالت هیجانی خود را منتقل میکند. پژوهشهای فراوانی با رویکردهای گوناگون پیرامون هیجان در گفتار هیجانی انجام شده است. این پژوهشها نشان میدهند که هیجان ضمن پیام در گفتار هیجانی از طبیعتی پویا برخودار میباشد. این پویایی، مطالعه کمّی هیجان در گفتار هیجانی را با دشواری همراه میسازد. این پژوهش به ارزیابی هیجان ضمن پیام از طریق پردازش گفتار هیجانی با استفاده از ویژگیهای ضرایب کپسترال فرکانس مِل (MFCC) و تبدیل فوریه زمان کوتاه (STFT) پرداخت.
روش کار: دادههای ورودی، پایگاهداده استاندارد گفتار هیجانی Berlin شامل هفت حالت هیجانی خشم، کسلی، انزجار، ترس، شادی، غم و حالت خنثی میباشد. با استفاده از نرم افزار MATLAB ابتدا فایلهای صوتی خوانده شدند. در مرحله بعد نخست ویژگیهای MFCC و سپس ویژگیهای STFT استخراج شدند. بردارهای ویژگی برای هر کدام از ویژگیها بر اساس هفت مقدار آماری کمینه، بیشینه، میانگین، انحراف معیار، میانه، چولگی و کشیدگی محاسبه شدند و به عنوان ورودی شبکه عصبی مصنوعی مورد استفاده قرار گرفتند. در انتها، بازشناسی حالتهای هیجانی با استفاده از توابع آموزشی مبتنی بر الگوریتمهای مختلف انجام شد.
یافتهها: نتایج بدست آمده نشان داد میانگین و صحت بازشناسی حالتهای هیجانی با استفاده از ویژگیهای STFT نسبت به ویژگیهای MFCC بهتر است. همچنین، حالتهای هیجانی خشم و غم از نرخ بازشناسی بهتری برخوردار بودند.
نتیجهگیری: ویژگیهای STFT نسبت به ویژگیهای MFCC هیجان ضمن پیام در گفتار هیجانی را بهتر بازنمایی میکنند.
نوع مطالعه:
پژوهشي اصیل |
موضوع مقاله:
مدل سازی شناختی، پردازش سیگنال و تصویربرداری مغز دریافت: 1398/2/8 | پذیرش: 1398/9/19 | انتشار: 1399/4/10