Система розпізнавання емоційного стану спікера

Система розпізнавання емоційного стану спікера
Система розпізнавання емоційного стану спікера 22.05.2022

Система розпізнавання емоційного стану спікера

Система розпізнавання емоцій автоматично визначає емоційний стан людини. Робота такої системи передбачає аналіз процесу звукового мовленнєвого сигналу, відбір ознак, що можуть містити інформацію про емоційний стан голосу людини, та застосування методів розпізнавання емоцій.

Відповідно до завдання дослідження було виконано наступне:

ü досліджено акустичні ознаки, за якими можна характеризувати людське мовлення;

ü проаналізовано класифікатори розпізнавання емоцій за голосом, вивчено поняття нейронної мережі;

ü розроблено застосунок розпізнавання емоцій спікера в реальному часі засобами мови Python, навчання моделі виконано на наборі даних RAVDESS.

Система розпізнавання емоційного стану складається з чотирьох етапів роботи:

-       запис вхідного сигналу;

-       відбір ознак;

-       обробка класифікатором;

-       видача результату.

У роботі було використано наступні ознаки для кожного аудіо файлу:

-       шкала Мела – призначена для сприйняття частоти людиною, це шкала тонів, які слухачі оцінюють як однакову відстань один від одного;

-       висота – наскільки високий чи низький звук; це залежить від частоти, більший тон – висока частота;

-       частота – швидкість вібрації звуку, вимірює хвильові цикли в секунду;

-       chroma – представлення аудіо, коли спектр проєктується на 12-елементний вектор ознак, що представляють 12 окремих півтонів (або кольоровості); обчислюється шляхом підсумовування спектру амплітуди логарифмічної частоти по октавах;

-       MFCC – кепстральні коефіцієнти частоти Mel – голос залежить від форми голосового тракту, включаючи язик, зуби; представлення короткочасного спектру потужності звуку, по суті, відображення голосового тракту.

Далі використовується класифікатор MLPClassifier – це багатошаровий класифікатор персептрону. Багатошаровий персептрон (MLP) має внутрішню нейронну мережу. Багатошаровий персептрон, випущений з метою класифікації. Класифікатор MLP навчається на наборі даних RAVDESS. Фаза навчання дає змогу MLP вивчити кореляцію між набором входів і виходів. Під час навчання MLP коригує такі параметри моделі, як ваги та зміщення, щоб мінімізувати помилку.

Для створення проєкту використано мову програмування Python версії 3.9, набір даних RAVDEESS для навчання та тестування створеної моделі, бібліотеку Librosa для вилучення особливостей розпізнавання емоцій та Pyaudio для запису аудіо.

RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech and Song) – це база голосових даних 24 акторів, які записали по декілька прикладів на кожну з восьми наступних емоцій: нейтральний стан (Neutral), спокій (Calm), радість (Happy), сум (Sad), злість (Angry), страх (Fearful), відраза (Disgust), здивованість (Surprised).

Набір даних загалом містить 2452 файли. У записі та оцінці файлів датасет RAVDESS брало участь більш, ніж 250 осіб. Серед файлів є аудіо-текст, аудіо-пісні та відео. У рамках науково-дослідницької роботи розглядається лише аудіо. Також вирішено з’єднати такі емоції як нейтральна та спокій, оскільки вони досить схожі і в даному дослідженні нема сенсу перевантажувати систему великою кількістю класів.

Перейдемо де результатів роботи.. 

Точність тренування моделі становить 71.43%. Це означає, що програма буде працювати коректно, оскільки для хорошого результату визначення емоцій, потрібно щоб точність моделі становила 70% і вище. 

Відповідно до точності моделі отримаємо правильні результити тестування програми.  Я тестував програму з щасливою інтонацією вимовлення, здивовано, та злою. Програма видала коректні результати.


Назва конкурсу:  Конкурс «Вирішення практичних задач із застосуванням штучного інтелекту»
ПІБ Керівника/Куратора:  Оляніна Надія Володимирівна
ПІБ конкурсанта:  Гуцул Руслан Андрійович
Країна:  Україна
Область:  Тернопільска область
Назва НЗ:  Відокремлений структурний підрозділ «Гусятинський фаховий коледж Тернопільського національного технічного університету імені Івана Пулюя»
Учасник фіналу:  Так
Місце Фінал:  1
Сумарна оцінка (максимум - 5):  4
Файл статті (pdf):  Завантажити

Повернення до списку