Моделирование речевых признаков с помощью алгоритма симуляции отжига
- Авторы: Ермилов А.В.1
-
Учреждения:
- Национальный исследовательский университет «Высшая школа экономики»
- Выпуск: № 2 (2014)
- Страницы: 354-358
- Раздел: Статьи
- URL: https://journals.rudn.ru/miph/article/view/8391
Цитировать
Полный текст
Аннотация
Мел-частотные кепстральные коэффициенты до сих пор являются наиболее популярными речевыми признаками. Однако в зависимости от длины речевого тракта (стоит отметить, что длина речевого тракта зависит от пола и других физиологических параметров, таких как рост, и может меняться в пределах от 13 до 18 см) частоты центральных формант оказываются смещёнными. Величина смещения может достигать 25%. Такие большие различия могут вести к неправильному распознаванию высказывания предварительно хорошо обученной модели в случае, если высказывание было произнесено новым диктором, то есть система становится дикторозависимой. Альтернативой является применение признаков, которые не зависят от диктора, например, полученные с помощью аудиовизуальных моделей (Auditory Image Model). В данной статье описываются признаки, основанные на аудиовизуальных моделях, которые могут быть вычислены при помощи алгоритма симуляции отжига. На основе Монте-Карло-симуляций исследованы статистические свойства оценок параметров расширения Грам-Шарлье нормального распределения, полученных применением метода симуляции отжига к решению задачи максимизации правдоподобия, а также проведено сравнение точности решения данной задачи максимизации правдоподобия при помощи различных методов.
Об авторах
Алексей Валерьевич Ермилов
Национальный исследовательский университет «Высшая школа экономики»
Email: alvalerm@mail.ru
Кафедра управления разработкой программного обеспечения
Список литературы
- Sahidullah M., Saha G. Design, Analysis and Experimental Evaluation of Block Based Transformation in MFCC Computation for Speaker Recognition // Speech Communication. - 2012. - Vol. 54, No 4. - Pp. 543-565.
- Munich M. E., Lin Q. Auditory Image Model features for Automatic Speech Recognition // 9th European Conference on Speech Communication and Technology (Interspeech’ 2005 - Eurospeech). - 2005. - Pp. 3037-3040.
- Niguez T., Perote J. Forecasting the Density of Asset Returns // STICERD Working Paper. - 2004.
- Neal R. M. Slice Sampling // Annals of Statistics. - 2003. - Vol. 31, No 3. - Pp. 705-767.
- Convergence Properties of the Nelder-MeadSimplex Method in Low Dimensions / J.C. Lagarias, J.A. Reeds, M.H. Wright, P.E. Wright // SIAM Journal on Optimization. - 1998. - Vol. 9, No 1. - Pp. 112-147.