Все мы знаем, что звук представляет собой некоторую волну, или колебательное движение частиц упругой среды. В узком значении звук — это явление, которые живые организмы воспринимают с помощью специального органа чувств.
Любой звук можно представить во временной и частотных областях. Удобнее работать со вторым видом — спектрограммы отражают не только сами частоты, но и их изменение во времени. Чтобы увидеть это наглядно, можно заглянуть на сайт
Spectrogram — сервис автоматически и в реальном времени рисует спектрограмму в зависимости от того, что слышит. Человеческую речь можно разложить на несколько форматов: частота основного тона, анатомические особенности звучания (хрип, сиплость и т.д.), эмоции.
Современный синтез речи, если по-простому, — это предсказание картинки-спектрограммы.