<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Discrete and Continuous Models and Applied Computational Science</journal-id><journal-title-group><journal-title xml:lang="en">Discrete and Continuous Models and Applied Computational Science</journal-title><trans-title-group xml:lang="ru"><trans-title>Discrete and Continuous Models and Applied Computational Science</trans-title></trans-title-group></journal-title-group><issn publication-format="print">2658-4670</issn><issn publication-format="electronic">2658-7149</issn><publisher><publisher-name xml:lang="en">Peoples' Friendship University of Russia named after Patrice Lumumba (RUDN University)</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">8391</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Articles</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Статьи</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Modeling Speach Features Via Simulated Annealing Algorithm</article-title><trans-title-group xml:lang="ru"><trans-title>Моделирование речевых признаков с помощью алгоритма симуляции отжига</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Ermilov</surname><given-names>A V</given-names></name><name xml:lang="ru"><surname>Ермилов</surname><given-names>Алексей Валерьевич</given-names></name></name-alternatives><bio xml:lang="en">Department of Control of System Development</bio><bio xml:lang="ru">Кафедра управления разработкой программного обеспечения</bio><email>alvalerm@mail.ru</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">National Research University “Higher School of Economics”</institution></aff><aff><institution xml:lang="ru">Национальный исследовательский университет «Высшая школа экономики»</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2014-02-15" publication-format="electronic"><day>15</day><month>02</month><year>2014</year></pub-date><issue>2</issue><issue-title xml:lang="en">NO2 (2014)</issue-title><issue-title xml:lang="ru">№2 (2014)</issue-title><fpage>354</fpage><lpage>358</lpage><history><date date-type="received" iso-8601-date="2016-09-08"><day>08</day><month>09</month><year>2016</year></date></history><permissions><copyright-statement xml:lang="ru">Copyright ©; 2014, Ермилов А.В.</copyright-statement><copyright-year>2014</copyright-year><copyright-holder xml:lang="ru">Ермилов А.В.</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">http://creativecommons.org/licenses/by/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://journals.rudn.ru/miph/article/view/8391">https://journals.rudn.ru/miph/article/view/8391</self-uri><abstract xml:lang="en">Mel-Frequency Cepstral Coefficients are in so far the most popular speech features. However, depending on the length of a vocal tract (it is worth mentioning that length of a vocal tract is dependent on sex and other physiologic parameters of a speaker, such as height, and can vary from 13 cm to 18 cm) frequencies of central formants are shifted. The value of the shift can be as large as 25%. This huge difference can lead to a wrong recognition of a new utterance by a previously well-trained model when the utterance was said by a new speaker, thus the system becomes speaker-dependent. Alternative way is to use speaker independent features such as that obtained using Auditory Image Model (AIM) to describe input utterance. In our work we propose AIM based features which are calculated using simulated annealing algorithm. Using Monte-Carlo schemes we investigate statistical properties of maximum likelihood estimates of Gram-Charlier extension of normal density obtained via simulated annealing algorithm, also we compare different methods to solve aforementioned optimization problem.</abstract><trans-abstract xml:lang="ru">Мел-частотные кепстральные коэффициенты до сих пор являются наиболее популярными речевыми признаками. Однако в зависимости от длины речевого тракта (стоит отметить, что длина речевого тракта зависит от пола и других физиологических параметров, таких как рост, и может меняться в пределах от 13 до 18 см) частоты центральных формант оказываются смещёнными. Величина смещения может достигать 25%. Такие большие различия могут вести к неправильному распознаванию высказывания предварительно хорошо обученной модели в случае, если высказывание было произнесено новым диктором, то есть система становится дикторозависимой. Альтернативой является применение признаков, которые не зависят от диктора, например, полученные с помощью аудиовизуальных моделей (Auditory Image Model). В данной статье описываются признаки, основанные на аудиовизуальных моделях, которые могут быть вычислены при помощи алгоритма симуляции отжига. На основе Монте-Карло-симуляций исследованы статистические свойства оценок параметров расширения Грам-Шарлье нормального распределения, полученных применением метода симуляции отжига к решению задачи максимизации правдоподобия, а также проведено сравнение точности решения данной задачи максимизации правдоподобия при помощи различных методов.</trans-abstract><kwd-group xml:lang="en"><kwd>speach features</kwd><kwd>simulated annealing</kwd><kwd>speech recognition</kwd><kwd>distribution modeling</kwd><kwd>numerical methods</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>речевые признаки</kwd><kwd>алгоритм симуляции отжига</kwd><kwd>распознавание речи</kwd><kwd>моделирование распределений</kwd><kwd>численные методы</kwd></kwd-group></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>Sahidullah M., Saha G. Design, Analysis and Experimental Evaluation of Block Based Transformation in MFCC Computation for Speaker Recognition // Speech Communication. - 2012. - Vol. 54, No 4. - Pp. 543-565.</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>Munich M. E., Lin Q. Auditory Image Model features for Automatic Speech Recognition // 9th European Conference on Speech Communication and Technology (Interspeech’ 2005 - Eurospeech). - 2005. - Pp. 3037-3040.</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>Niguez T., Perote J. Forecasting the Density of Asset Returns // STICERD Working Paper. - 2004.</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>Neal R. M. Slice Sampling // Annals of Statistics. - 2003. - Vol. 31, No 3. - Pp. 705-767.</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>Convergence Properties of the Nelder-MeadSimplex Method in Low Dimensions / J.C. Lagarias, J.A. Reeds, M.H. Wright, P.E. Wright // SIAM Journal on Optimization. - 1998. - Vol. 9, No 1. - Pp. 112-147.</mixed-citation></ref></ref-list></back></article>
