AudioCraft
Open source library for audio/music generation by Meta, which mainly includes two models, MusicGen: text-to-music model, AudioGen: text-generated sound model. - スマートな AI ツールで生産性を向上。
Open source library for audio/music generation by Meta, which mainly includes two models, MusicGen: text-to-music model, AudioGen: text-generated sound model. - スマートな AI ツールで生産性を向上。
Bark is a transformer-based text-to-audio model created by Suno. Bark can generate highly realistic, multilingual speech as well as other audio - including music, background noise and simple sound effects. - スマートな AI ツールで生産性を向上。

ElevenLabs Sound Effects は、テキストからカスタムSFX、環境音、ループ、映画的な効果音を生成するツールです。長さ、prompt influence、ループ、複数バリエーション、ダウンロード、APIワークフローに対応します。
Text to music - スマートな AI ツールで生産性を向上。

Create music from simple text prompts by specifying topics, genres, and other descriptors which are then transformed into professional quality tracks. - スマートな AI ツールで生産性を向上。

Create stunning original music for free in seconds using AI. Make your own masterpieces, share with friends, and discover music from artists worldwide. - スマートな AI ツールで生産性を向上。

Split vocal and instrumental tracks quickly and accurately with LALAL.AI. Upload any audio file and receive high-quality extracted tracks in a few seconds. - スマートな AI ツールで生産性を向上。

Separate voice from music out of a song free with powerful AI algorithms - スマートな AI ツールで生産性を向上。

So-VITS-SVC は SoftVC と VITS を使った無料オープンソースの歌声変換プロジェクトです。歌声を別の学習済み声質へ変換する研究・実験に使われますが、データ、GPU、学習知識、同意と著作権確認が必要です。

ShazamはAppleの音楽認識アプリで、周囲や対応アプリ内で流れている曲を識別できます。曲名、歌詞、ビデオ、ライブ情報、Apple Musicへの導線をすばやく得たいユーザーに向いています。

ChatTTS is a text-to-speech model designed specifically for dialogue scenario such as LLM assistant. It supports both English and Chinese languages. - スマートな AI ツールで生産性を向上。

Tetosは、複数のText-to-Speechプロバイダーを統一インターフェースで扱うオープンソースのPython/CLIラッパーです。Edge TTS、OpenAI、Azure、Google、Volcengine、Baiduなどを比較・切り替えたい開発者に向いています。

EmotiVoice は NetEase Youdao の無料オープンソース多音声・プロンプト制御 TTS です。英語と中国語、2000以上の声、感情・話し方制御に対応し、研究、開発、音声アプリのプロトタイプに向いています。

ElevenLabsは、TTS、音声クローン、吹き替え、音声認識、音声エージェント、生成音声APIに対応するAI音声プラットフォームです。

A deep learning toolkit for Text-to-Speech, battle-tested in research and production - スマートな AI ツールで生産性を向上。

Hailuo AI TTSは、MiniMax Audioと関連する多言語テキスト読み上げ、AI音声、音声クローン向けの音声生成ツールです。

The best and most realistic voice tools currently available - スマートな AI ツールで生産性を向上。

IndexTTSはBilibiliのオープンソース、産業レベルの制御可能で効率的なゼロショットTTSシステムです。完成したWeb音声アプリではなく、音声研究者と開発者向けの実験プロジェクトです。

ML-powered speech recognition directly in your browser. Built with Transformers.js. - スマートな AI ツールで生産性を向上。

WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) - スマートな AI ツールで生産性を向上。

WhisperDesktopは、OpenAI Whisper系の音声認識をWindowsでローカル実行するデスクトップアプリです。

Buzz は OpenAI Whisper を使った無料オープンソースのデスクトップ音声文字起こし・翻訳アプリです。音声/動画を取り込み、TXT/SRT/VTT/CSV に出力し、マイク、Whisper.cpp、Faster Whisper、Hugging Face、OpenAI API、CLI、話者識別、音声分離をサポートします。

Port of OpenAI's Whisper model in C/C++ - スマートな AI ツールで生産性を向上。

OpenAPI open source robust speech recognition model through large-scale weak supervision - スマートな AI ツールで生産性を向上。