• лытдыбр работа Играюсь с github.com (локальная распознавалка речи нейросеткой).
    С моделью tiny реальный разговор по телефону распознаётся несколько смешновато, но зато практически в реалтайме даже на дохлом целероне.
    Модель large распознаёт точнее, но и сильно медленнее.
    Всякие gpu не прикручивал — локально негде, а на сервере и без этого поназапущено всякого, т.е. всё это — на чистом cpu.
  • до одной минуты записи гугол распознает бесплатно, получше чем локальный vosk и примерно так же как whisper. больше тоже можно если умеешь резать звук по тишине. нагрузка на цпу = 0