noScribe Trankription

Offizielle Seite: https://noscribe.de/de/

noScribe extrahiert automatisch die Audiospur aus Videodateien und transkribiert diese.

Vorteile:

Grafische Benutzeroberfläche - keine Kommandozeile nötig
Speziell für Interviews entwickelt
Automatische Sprechererkennung (Speaker Diarization)
Integrierter Editor zum Nachbearbeiten
Zeitstempel werden automatisch eingefügt
Nutzt Whisper im Hintergrund - beste Qualität
Kostenlos und Open Source
Exportiert direkt in verschiedene Formate (TXT, DOCX, SRT)
Kann Audio während des Transkribierens anzeigen
Für lange Interviews optimiert
die maximale Dateigröße: Praktisch unbegrenzt, aber bei sehr langen Aufnahmen (>3h) kann die Verarbeitung länger dauern
Qualität: Je besser die Audioqualität, desto genauer das Transkript
Mehrkanal-Audio: Wird auf Mono reduziert

Jedes gängige Format sollte funktionieren. Falls dein Interview in einem exotischen Format vorliegt, kannst du es vorher mit "ffmpeg" konvertieren:

ffmpeg -i eingabe.xxx -ar 16000 ausgabe.mp3

noScribe folgende Audio- und Video-Formate:

Audio:
- MP3
- WAV
- M4A
- FLAC
- OGG
- WMA

Video:
- MP4
- AVI
- MOV
- MKV
- WebM

Installation Linux

Gehe auf die Releases-Seite und lade die Linux-Version herunter.

Es gibt 2 Versionen. CUDA ist für NVIDIA-Grafikkarten (keine AMD Unterstützung) und kann den Prozess beschleunigen. CPU ist für alles andere.

Download the CUDA or CPU version of noScribe 0.7 for Linux here: https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.7%2FLinux
- Issues with noScribe 0.7 for Linux on some systems have been reported. If noScribe 0.7 for Linux does not work on your system, please use noScribe 0.6.2 while we try to solve these issues: https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.6%2FLinux
Untar the file using the terminal command tar -xzvf noScribe_0.7.0_cpu_linux_amd64.tar.gz or tar -xzvf noScribe_0.7.0_cuda_linux_amd64.tar.gz.
Execute noScribe using the terminal by cding into the noScribe folder and executing ./noScribe.
Optionally: Edit the files noScribe.desktop and noScribeEdit.desktop with a text editor and enter the complete path in the lines starting with Exec= and Icon=.

Manuelle Installation:

# Abhängigkeiten installieren
sudo apt install python3 python3-pip python3-venv git ffmpeg -y

# git Repo klonen
git clone https://github.com/kaixxx/noScribe.git
cd noScribe

# noScribeEdit
rm -rf noScribeEdit/
git clone https://github.com/kaixxx/noScribeEditor.git noScribeEdit

# Python‑Umgebung
python3 -m venv venv
source venv/bin/activate

# Abhängigkeiten
pip install -r environments/requirements_linux.txt
pip install -r noScribeEdit/environments/requirements.txt

# Modelle
rm -rf models/fast
rm -rf models/precise
git clone https://huggingface.co/mukowaty/faster-whisper-int8 models/fast
git clone https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo models/precise

# Start
python3 ./noScribe.py

Der RAM limitiert die Audiodateigröße

Whisper-Modelle:

Modell	RAM	Qualität	Geschwindigkeit
fast (medium)	~2 GB	gut	~2× schneller
precise (large-v2)	~3 GB	sehr gut	langsamer

pyannote (Speaker ID): ~1–2 GB
Whisper precise: ~3 GB
System + noScribe selbst: ~2 GB
Gesamt ~7–8 GB

Es kann sein, dass Hinterprogramme wie Firefox bei Speichermangel beendet werden.
earlyoom ist ein Daemon der auf deinem System läuft und bei Speichermangel proaktiv Prozesse beendet (bevor der Linux-Kernel brutal eingreift). Z.B in den Fällen, wenn nur noch 700 MB von 15 GB RAM frei sind oder Swap voll ist.

Besser ist es die Audiodatei aufzuteilen. Pyannote verarbeitet kürzere Dateien mit weniger Peak-RAM. Nach pyannote wird der Speicher teilweise freigegeben, bevor Whisper lädt - das vermeidet den Engpass.

# Ordner anlegen
mkdir -p ~/audio_teile

# Aufteilung
ffmpeg -i ~/example.mp3 -f segment -segment_time 1920 -c copy ~/audio_teile/datei_part%02d.mp3

Bedeutung der Parameter:

-segment_time 1920 = 32 Minuten (1920 Sekunden) pro Teil
-c copy = kein Neu-Enkodieren, schnell und verlustfrei
- %02d = Zweistellige Nummerierung 00, 01, 02, 03...

Empfehlung: Bei Abstürzen in den noScribe-Einstellungen auf fast wechseln. Der Qualitätsverlust ist bei deutschsprachigen Interviews meist minimal.

Server

Client

noScribe Trankription

Installation Linux

Der RAM limitiert die Audiodateigröße