Задачи машинного обучения, такие как распознавание речи в реальном масштабе времени, требуют изрядной и довольно специфической вычислительной мощи.
Достаточно давно уже стало понятно, что использовать для таких целей ЦП архитектуры х86 с их относительно немногочисленными универсальными ядрами нецелесообразно. Поэтому до самого последнего времени та часть облака AWS, которая занята распознаваем голосовых команд, отдаваемых ассистенту Alexa пользователями по всему миру, строилась на базе серверных графических вычислителей Nvidia.
Однако теперь стало известно, что Amazon намерена последовательно перекладывать распознавание голоса на плечи серверов, содержащих процессоры её собственной разработки, — AWS Inferentia.
Каждый такой процессор содержит по четыре ядра NeuronCore, реализованных как высокопроизводительные систолические массивы (матрицы элементарных вычислительных узлов с базовой функциональностью, совместно решающих по частям единую общую задачу). Плюс для ещё большего ускорения вычислений на том же самом кристалле размещен значительный объём кэш-памяти.
По заявлению разработчика, перевод распознавания речи на собственные чипы обеспечит Amazon 30%-е сокращение себестоимости каждой такой операции и 25%-е уменьшение задержки при взаимодействии с локальными устройствами (умными колонками Echo, в первую очередь) по сравнению с решениями на базе серверных ГП Nvidia.