Голосовой ввод давно перестал быть диковинкой на мобильных устройствах, но на компьютерах остаётся менее привычным. Компания Canonical, по всей видимости, решила изменить ситуацию и раскрыла подробности о Myna, локальном приложении для преобразования речи в текст, которое должно появиться в Ubuntu 26.10 под кодовым названием «Stonking Stingray».
Myna станет одним из заметных элементов следующего выпуска системы. Canonical уже говорила на Ubuntu Summit, что хочет активнее встраивать ИИ-функции в Ubuntu, а теперь описала первый практический шаг. Речь идёт не об облачном помощнике, а о диктовке, которая работает на устройстве через локальные модели распознавания речи.
Первый вариант Myna будет устроен максимально просто. Пользователь нажимает сочетание клавиш, говорит обычным голосом, а текст появляется в открытом приложении. Во время диктовки интерфейс должен показывать понятный индикатор, чтобы человек видел, что запись идёт и система распознаёт речь.
Canonical отдельно ограничивает масштаб первой версии. Компания не обещает полноценное управление компьютером голосом и делает ставку на базовую, надёжную диктовку. Такой подход показывает, что Ubuntu пока догоняет возможности, которые уже есть у конкурентов. В macOS для похожих задач служит Voice Control, а в Windows Microsoft развивает Voice Access вместо старого Windows Speech Recognition.
Проект Myna будет открытым, и репозиторий на GitHub уже создан, но пока содержит в основном рабочие заметки и планы. До релиза Ubuntu 26.10 остаётся около четырёх месяцев, поэтому функция ещё может измениться.
Canonical выходит не на пустое поле, поскольку похожие задачи уже решают отдельные Linux-инструменты вроде Speech Note, а FFmpeg 8 умеет использовать whisper.cpp на базе модели Whisper для локального преобразования речи в текст, например, при создании субтитров.
В итоге Myna выглядит не как громкий рывок, а как попытка встроить полезную голосовую функцию прямо в рабочий стол Ubuntu. Если Canonical доведёт базовую диктовку до стабильного состояния, пользователи Linux получат более удобный способ ввода текста без передачи речи внешнему сервису.
Источник
Нет комментариев