Моделирование речевых признаков с помощью алгоритма симуляции отжига

Обложка

Цитировать

Полный текст

Аннотация

Мел-частотные кепстральные коэффициенты до сих пор являются наиболее популярными речевыми признаками. Однако в зависимости от длины речевого тракта (стоит отметить, что длина речевого тракта зависит от пола и других физиологических параметров, таких как рост, и может меняться в пределах от 13 до 18 см) частоты центральных формант оказываются смещёнными. Величина смещения может достигать 25%. Такие большие различия могут вести к неправильному распознаванию высказывания предварительно хорошо обученной модели в случае, если высказывание было произнесено новым диктором, то есть система становится дикторозависимой. Альтернативой является применение признаков, которые не зависят от диктора, например, полученные с помощью аудиовизуальных моделей (Auditory Image Model). В данной статье описываются признаки, основанные на аудиовизуальных моделях, которые могут быть вычислены при помощи алгоритма симуляции отжига. На основе Монте-Карло-симуляций исследованы статистические свойства оценок параметров расширения Грам-Шарлье нормального распределения, полученных применением метода симуляции отжига к решению задачи максимизации правдоподобия, а также проведено сравнение точности решения данной задачи максимизации правдоподобия при помощи различных методов.

Об авторах

Алексей Валерьевич Ермилов

Национальный исследовательский университет «Высшая школа экономики»

Email: alvalerm@mail.ru
Кафедра управления разработкой программного обеспечения

Список литературы

  1. Sahidullah M., Saha G. Design, Analysis and Experimental Evaluation of Block Based Transformation in MFCC Computation for Speaker Recognition // Speech Communication. - 2012. - Vol. 54, No 4. - Pp. 543-565.
  2. Munich M. E., Lin Q. Auditory Image Model features for Automatic Speech Recognition // 9th European Conference on Speech Communication and Technology (Interspeech’ 2005 - Eurospeech). - 2005. - Pp. 3037-3040.
  3. Niguez T., Perote J. Forecasting the Density of Asset Returns // STICERD Working Paper. - 2004.
  4. Neal R. M. Slice Sampling // Annals of Statistics. - 2003. - Vol. 31, No 3. - Pp. 705-767.
  5. Convergence Properties of the Nelder-MeadSimplex Method in Low Dimensions / J.C. Lagarias, J.A. Reeds, M.H. Wright, P.E. Wright // SIAM Journal on Optimization. - 1998. - Vol. 9, No 1. - Pp. 112-147.

© Ермилов А.В., 2014

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах