MCP-сервер j3k0/speech.sh: что делает и как подключить (RU-обзор)
j3k0/speech.sh — MCP-сервер для AI-обработки аудио: транскрипция речи (Whisper), синтез голоса (TTS), генерация музыки. Используется для meeting-notes, подкаст-производства, IVR-систем, доступности (озвучка статей).
Из README: Let the agent speak things out loud, notify you when he's done working with a quick summary
- Лицензия
- —
- Язык
- —
- ★ GitHub
- 0
- Последний коммит
- —
Когда полезен
j3k0/speech.sh закрывает следующие сценарии, когда подключён к AI-агенту через Model Context Protocol:
- Meeting notes: запись встречи → транскрипт → саммари → action items в трекер.
- Подкаст-производство: транскрипт + редактура + синтез интро/аутро.
- Доступность: автоматическая озвучка статей блога.
О категории «AI: аудио и речь»: AI для аудио: транскрипция речи (Whisper, AssemblyAI, Deepgram), синтез голоса (ElevenLabs, OpenAI TTS, Cartesia), генерация музыки (Suno, Udio). Подробнее о категории →
Что умеет j3k0/speech.sh
Список тулзов ещё не извлечён из манифеста сервера. Смотрите актуальный список на странице репозитория.
Как установить
j3k0/speech.sh поддерживает 1 AI-клиент: Cursor. Выберите свой:
Типичные проблемы и решения
Даже у простых MCP-серверов бывают мелкие проблемы при первой установке. Ниже — типовые сценарии и быстрые фиксы:
- ⚠️ После добавления конфига и перезапуска клиента сервер не появляется в списке доступных тулзов.
- ✅ Самые частые причины: (1) опечатка в имени пакета — проверьте, что имя пакета совпадает с README репозитория; (2) клиент не был полностью перезапущен (нужно закрыть и открыть, не reload); (3) Node.js версии ниже 20 — проверьте через "node --version".
- ⚠️ Сервер падает при первом запросе с ошибкой "command not found: npx".
- ✅ Установите Node.js 20+ с официального сайта nodejs.org и убедитесь, что npx появился в PATH (откройте новый терминал и проверьте "npx --version"). Для Windows может понадобиться перезапуск IDE / Cursor / Claude Desktop, чтобы он подхватил обновлённый PATH.
Часто задаваемые вопросы
- Что такое j3k0/speech.sh?
- j3k0/speech.sh — MCP-сервер из категории «AI-обработке аудио и речи». MCP (Model Context Protocol) — это открытый протокол Anthropic для подключения внешних инструментов и данных к LLM. Сервер выступает мостом: AI-агент типа Cursor или Claude Code общается с ним через JSON-RPC и получает результат, как если бы он сам вызвал внешний API.
- К каким AI-клиентам можно подключить j3k0/speech.sh?
- j3k0/speech.sh работает со следующими AI-клиентами: Cursor. Конкретная конфигурация для каждого — в секции «Как установить» выше. Если ваш клиент поддерживает MCP-протокол, но его нет в списке — подключение всё равно сработает: формат конфига одинаковый, отличается только путь к файлу.
- Как установить j3k0/speech.sh?
- Точная команда установки ещё не верифицирована автоматическим обогащением. Актуальная инструкция и команды есть в README репозитория https://github.com/j3k0/speech.sh/blob/main/MCP_README.md. После настройки добавьте JSON-блок с конфигом в файл MCP-настроек вашего AI-клиента и перезапустите его — общая схема описана в секции «Как установить» выше.
- Сколько стоит использовать j3k0/speech.sh?
- j3k0/speech.sh — это open-source MCP-сервер, в большинстве случаев бесплатный. Но проверьте лицензию в репозитории и тарифы того провайдера, к которому он подключается: если сервер для платного API (OpenAI / Stripe / Twilio), вы платите по тарифам этого провайдера, не за сам сервер.
- Нужен ли интернет для работы j3k0/speech.sh?
- Запуск j3k0/speech.sh происходит локально через stdio, отдельный сетевой порт не нужен. Network-доступ требуется только в момент, когда агент дёргает функции, обращающиеся к внешним сервисам. Для AI-клиента — Cursor / Claude Code / Windsurf — нужен интернет к самой LLM-платформе (Anthropic / OpenAI), но это не зависит от выбора MCP-сервера.
- Под какой лицензией распространяется j3k0/speech.sh?
- Информация о лицензии будет добавлена после обогащения через GitHub API. Сейчас рекомендуем заглянуть в файл LICENSE в репозитории напрямую. Большая часть MCP-серверов сообщества лицензируется под MIT, что разрешает свободное использование.
Альтернативы и похожие серверы
В категории «AI: аудио и речь» есть ещё 6 похожих серверов — отсортированы по популярности на GitHub:
- gpu-bridge/mcp-server
gpu-bridge-mcp-server ☁️ 🪟 - Unified GPU inference API with 30
- khan2a/telephony-mcp-server
MCP Telephony server for automating voice calls with Speech-to-Text and Speech Recognition to summarize call conversations. Send and receive SMS, detect voicemail, and integrate with Vonage APIs for a
- Spix-HQ/spix-mcp
Spix-HQ/spix-mcp ☁️ - Give AI agents a real phone number and voice. Make ou
- AceDataCloud/MCPSuno
AceDataCloud/MCPSuno ☁️ - Suno AI music generation, lyrics, covers,
- transloadit/node-sdk
transloadit/node-sdk ☁️ 🪟 - Agent-native media processing via Tr
- daisys-ai/daisys-mcp
Generate high-quality text-to-speech and text-to-voice outputs using the DAISYS platform and make it able to play and store audio generated
Ссылки
- GitHub репозиторий
- Smithery.ai (англоязычный каталог)