AudioCraft
Open source library for audio/music generation by Meta, which mainly includes two models, MusicGen: text-to-music model, AudioGen: text-generated sound model. - Intelligentes KI-Tool für mehr Produktivität.
Open source library for audio/music generation by Meta, which mainly includes two models, MusicGen: text-to-music model, AudioGen: text-generated sound model. - Intelligentes KI-Tool für mehr Produktivität.
Bark is a transformer-based text-to-audio model created by Suno. Bark can generate highly realistic, multilingual speech as well as other audio - including music, background noise and simple sound effects. - Intelligentes KI-Tool für mehr Produktivität.

ElevenLabs Sound Effects ist ein Text-to-Sound-Effects-Generator für individuelle SFX, Ambience, Loops und Cinematic Audio. Er unterstützt Dauersteuerung, Prompt Influence, Loops, mehrere Varianten, Downloads und API-Workflows.
Text to music - Intelligentes KI-Tool für mehr Produktivität.

Create music from simple text prompts by specifying topics, genres, and other descriptors which are then transformed into professional quality tracks. - Intelligentes KI-Tool für mehr Produktivität.

Create stunning original music for free in seconds using AI. Make your own masterpieces, share with friends, and discover music from artists worldwide. - Intelligentes KI-Tool für mehr Produktivität.

Split vocal and instrumental tracks quickly and accurately with LALAL.AI. Upload any audio file and receive high-quality extracted tracks in a few seconds. - Intelligentes KI-Tool für mehr Produktivität.

Separate voice from music out of a song free with powerful AI algorithms - Intelligentes KI-Tool für mehr Produktivität.

So-VITS-SVC ist ein kostenloses Open-Source-Projekt für Singing Voice Conversion mit SoftVC und VITS. Es wandelt Gesang in eine trainierte Zielstimme um und eignet sich für Forschung, benötigt aber Datensätze, Training, GPU-Know-how und Rechteprüfung.

Shazam ist Apples App zur Musikerkennung für Songs in der Umgebung oder in unterstützten Apps. Sie ist nützlich für schnelle Song-IDs, Lyrics, Videos, Konzertinformationen und den Übergang zu Apple Music.

ChatTTS is a text-to-speech model designed specifically for dialogue scenario such as LLM assistant. It supports both English and Chinese languages. - Intelligentes KI-Tool für mehr Produktivität.

Tetos ist ein Open-Source-Python- und CLI-Wrapper mit einheitlicher Schnittstelle für mehrere Text-to-Speech-Anbieter. Nützlich für Entwickler, die Edge TTS, OpenAI, Azure, Google, Volcengine, Baidu, Minimax, Xunfei, Fish Audio und andere Engines vergleichen oder wechseln wollen.

EmotiVoice ist eine kostenlose Open-Source-TTS-Engine von NetEase Youdao mit mehreren Stimmen und Prompt-Steuerung. Sie unterstützt Englisch und Chinesisch, über 2.000 Stimmen und emotionale Steuerung für Forschung, Prototypen und Voice-Anwendungen.

ElevenLabs ist eine AI-Voice-Plattform für Text-to-Speech, Voice Cloning, Dubbing, Speech-to-Text, Voice Agents und generative Audio-APIs.

A deep learning toolkit for Text-to-Speech, battle-tested in research and production - Intelligentes KI-Tool für mehr Produktivität.

Hailuo AI TTS ist ein mit MiniMax Audio verbundenes Tool für mehrsprachige Text-to-Speech-Erzeugung, KI-Stimmen und Voice Cloning.

The best and most realistic voice tools currently available - Intelligentes KI-Tool für mehr Produktivität.

IndexTTS ist Bilibili’s Open-Source-System für industrielle, steuerbare und effiziente Zero-Shot-Text-to-Speech-Synthese. Es richtet sich eher an Speech-Forscher und Entwickler als an Nutzer einer fertigen Web-App.

ML-powered speech recognition directly in your browser. Built with Transformers.js. - Intelligentes KI-Tool für mehr Produktivität.

WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) - Intelligentes KI-Tool für mehr Produktivität.

WhisperDesktop ist eine Windows-App für lokale OpenAI-Whisper-Transkription mit Datei- und Mikrofon-Workflows.

Buzz ist eine kostenlose Open-Source-Desktop-App für Offline-Transkription und Übersetzung mit OpenAI Whisper. Sie importiert Audio/Video, exportiert TXT/SRT/VTT/CSV und unterstützt Mikrofone, Whisper.cpp, Faster Whisper, Hugging Face, OpenAI API, CLI, Sprechererkennung und Speech Separation.

Port of OpenAI's Whisper model in C/C++ - Intelligentes KI-Tool für mehr Produktivität.

OpenAPI open source robust speech recognition model through large-scale weak supervision - Intelligentes KI-Tool für mehr Produktivität.