Skip to main content

noScribe Trankription

Offizielle Seite: https://noscribe.de/de/

github.com/kaixxx/noScribe

noScribe extrahiert automatisch die Audiospur aus Videodateien und transkribiert diese.

Vorteile:

  • Grafische Benutzeroberfläche - keine Kommandozeile nötig
  • Speziell für Interviews entwickelt
  • Automatische Sprechererkennung (Speaker Diarization)
  • Integrierter Editor zum Nachbearbeiten
  • Zeitstempel werden automatisch eingefügt
  • Nutzt Whisper im Hintergrund - beste Qualität
  • Kostenlos und Open Source
  • Exportiert direkt in verschiedene Formate (TXT, DOCX, SRT)
  • Kann Audio während des Transkribierens anzeigen
  • Für lange Interviews optimiert
  • die maximale Dateigröße: Praktisch unbegrenzt, aber bei sehr langen Aufnahmen (>3h) kann die Verarbeitung länger dauern
  • Qualität: Je besser die Audioqualität, desto genauer das Transkript
  • Mehrkanal-Audio: Wird auf Mono reduziert

Jedes gängige Format sollte funktionieren. Falls dein Interview in einem exotischen Format vorliegt, kannst du es vorher mit "ffmpeg" konvertieren:

ffmpeg -i eingabe.xxx -ar 16000 ausgabe.mp3

noScribe folgende Audio- und Video-Formate:

Audio:
- MP3
- WAV
- M4A
- FLAC
- OGG
- WMA

Video:
- MP4
- AVI
- MOV
- MKV
- WebM

Installation Linux

Gehe auf die Releases-Seite und lade die Linux-Version herunter.

Es gibt 2 Versionen. CUDA ist für NVIDIA-Grafikkarten (keine AMD Unterstützung) und kann den Prozess beschleunigen. CPU ist für alles andere.

Manuelle Installation:

# Abhängigkeiten installieren
sudo apt install python3 python3-pip python3-venv git ffmpeg -y

# git Repo klonen
git clone https://github.com/kaixxx/noScribe.git
cd noScribe

# noScribeEdit
rm -rf noScribeEdit/
git clone https://github.com/kaixxx/noScribeEditor.git noScribeEdit

# Python‑Umgebung
python3 -m venv venv
source venv/bin/activate

# Abhängigkeiten
pip install -r environments/requirements_linux.txt
pip install -r noScribeEdit/environments/requirements.txt

# Modelle
rm -rf models/fast
rm -rf models/precise
git clone https://huggingface.co/mukowaty/faster-whisper-int8 models/fast
git clone https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo models/precise

# Start
python3 ./noScribe.py

Der RAM limitiert die Audiodateigröße           

Whisper-Modelle:

Modell RAM Qualität Geschwindigkeit
fast (medium) ~2 GB gut ~2× schneller
precise (large-v2) ~3 GB sehr gut langsamer

pyannote (Speaker ID): ~1–2 GB
Whisper precise: ~3 GB
System + noScribe selbst: ~2 GB
Gesamt ~7–8 GB

Es kann sein, dass Hinterprogramme wie Firefox bei Speichermangel beendet werden.
earlyoom ist ein Daemon der auf deinem System läuft und bei Speichermangel proaktiv Prozesse beendet (bevor der Linux-Kernel brutal eingreift). Z.B in den Fällen, wenn nur noch 700 MB von 15 GB RAM frei sind oder Swap voll ist.

Besser ist es die Audiodatei aufzuteilen. Pyannote verarbeitet kürzere Dateien mit weniger Peak-RAM. Nach pyannote wird der Speicher teilweise freigegeben, bevor Whisper lädt - das vermeidet den Engpass.

# Ordner anlegen
mkdir -p ~/audio_teile
# Aufteilung
ffmpeg -i ~/example.mp3 -f segment -segment_time 1920 -c copy ~/audio_teile/datei_part%02d.mp3

Bedeutung der Parameter:

-segment_time 1920 = 32 Minuten (1920 Sekunden) pro Teil
-c copy = kein Neu-Enkodieren, schnell und verlustfrei
- %02d = Zweistellige Nummerierung 00, 01, 02, 03...

Empfehlung: Bei Abstürzen in den noScribe-Einstellungen auf fast wechseln. Der Qualitätsverlust ist bei deutschsprachigen Interviews meist minimal.