Иллюстрация Microsoft
Microsoft в феврале (чуть раньше чем Google) представил новый аудиокодек Satin на базе машинного обучения и современных алгоритмов резервирования, который уже сейчас используется в Teams и Skype.
Satin может передавать широкополосную речь до 16 кГц уже при 6 кбит/с, а стереомузыку — при 17 кбит/с. Его предшественник Silk, который в свое время заменил G.722, мог работать с переменным битрейтом от 6 кбит/с и обеспечивал широкополосную передачу речи при 14 кбит/с.
Satin кодирует и передает информацию только в нижних частотных диапазонах, верхние восстанавливает с помощью нейронных сетей. Microsoft пишет, что образовавшуюся в связи с этим вычислительную сложность удалось снизить на 40% с помощью оптимизации алгоритмов и обеспечить работоспособность кодека на всех пользовательских устройствах. Satin также усовершенствовали с точки зрения компенсации потери данных. Он кодирует пакеты независимо друг от друга, поэтому пропажа одного не влияет на качество следующих. В блоге есть сравнительные сэмплы Satin и Silk при 6 кбит/с, частотные характеристики и описание работы.
Satin уже используется в Teams и Skype для звонков один на один в диапазоне от 6 до 36 кбит/с. Скоро кодек будет поддержан для собраний Teams и передачи стереомузыки с частотой дискретизации 48 кГц.