Tale-til-tekst

Den mest præcise transskription af dansk tale

9.01% WER på oplæst dansk. 19.21% på samtaledansk. 425× hurtigere end realtid på én GPU. Åbne vægte — kør lokalt uden at sende data ud af huset.

Kontakt os Hent på Hugging Face

Hviske v5.3 — udgivet 2026 · CC BY-NC 4.0

9.01%

WER på oplæst dansk (CoRal v3)

19.21%

WER på samtaledansk

~425×

Realtid på én RTX 3090

Parametre

Licens og adgang

Åbne vægte, dine data

Download og kør lokalt — dine lydoptagelser forlader aldrig din infrastruktur.

CC BY-NC 4.0

Hviske v5.3 er udgivet med åbne vægte på Hugging Face under CC BY-NC 4.0. Du kan downloade modellen og køre den lokalt — dine lydoptagelser forlader aldrig din infrastruktur.

Licensen tillader fri brug til forskning, undervisning og personlige projekter. Kommerciel brug kræver en separat licens.

Se hviske-v5.3 på Hugging Face

Kommerciel licens

Skal modellen bruges i et kommercielt produkt, til on-prem support eller fine-tuning på jeres egne data? Kontakt os for en skræddersyet aftale.

Vi hjælper med opsætning, integration og drift — uanset om det er i skyen eller på egne servere.

Kontakt os

Kom i gang

Integrér Hviske på minutter

Hviske v5.3 leveres med et indbygget transcribe() API der håndterer batching, sampling og automatisk chunking af lange optagelser.

Python · pip install transformers torch soundfile librosa

import torch, numpy as np, soundfile as sf
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

processor = AutoProcessor.from_pretrained(
    "syvai/hviske-v5.3", trust_remote_code=True
)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    "syvai/hviske-v5.3",
    trust_remote_code=True,
    dtype=torch.bfloat16,
).to("cuda").eval()

audio, sr = sf.read("din_lydfil.wav")
audio = np.asarray(audio, dtype=np.float32)

text = model.transcribe(
    processor=processor,
    language="da",
    audio_arrays=[audio],
    sample_rates=[sr],
)[0]

print(text)

Modellen håndterer automatisk lyd længere end 35 sekunder via intern chunking. Lyd resamples til 16 kHz.

Benchmarks

State-of-the-art på CoRal v3

Hviske v5.3 leverer de bedste resultater på Danmarks største offentlige benchmark for dansk tale.

CoRal v3 — oplæst (CER)

Model	Param.	CER
syvai/hviske-v5.3	2B	3.63%
CoRal-project/roest-whisper-1.5b-v1	1.54B	4.0%
syvai/hviske-v2	1.54B	4.0%
openai/whisper-large-v3	1.54B	10.1%

CoRal v3 — samtale (CER)

Model	Param.	CER
syvai/hviske-v5.3	2B	11.35%
CoRal-project/roest-whisper-1.5b-v2	1.54B	11.6%
CoRal-project/roest-wav2vec2-315m-v3	315M	13.7%
openai/whisper-large-v3	1.54B	27.5%
syvai/hviske-v2	1.54B	29.4%

~425× realtid

Hviske v5.3 transskriberer 60 minutters lyd på ca. 8.5 sekunder på en enkelt NVIDIA RTX 3090 i bfloat16. Det gør den velegnet til både stor-skala batch-processering og lav-latens applikationer.

Tal rapporteret med strict-normalisering. Beam search giver ~0,4 procentpoint lavere WER mod ~75% inferens-overhead.

Anvendelser

Præcis dansk transskription — lokalt

Fire områder hvor præcis dansk transskription uden cloud-overførsel løser et reelt problem.

Medier og podcast

Skalerbar batch-transskription af arkiver. Søgbar tekst på hundredvis af timers lyd.

Kommuner og regioner

Mødereferater og sagsbehandling — uden at sende borgerlyd til OpenAI.

Sundhedssektoren

Lægediktering og journalnotater. GDPR-kritisk; lyden må aldrig forlade huset.

Forskning og sprogteknologi

Korpus-arbejde, sprogforskning, datasæt-annotering på dansk i stor skala.

Klar til at transskribere dansk lyd lokalt?

Test modellen gratis under CC BY-NC 4.0. Kontakt os for kommerciel licens, on-prem support eller fine-tuning på jeres egne data.

Kontakt os