Tale-til-tekst
Den mest præcise transskription af dansk tale
9.01% WER på oplæst dansk. 19.21% på samtaledansk. 425× hurtigere end realtid på én GPU. Åbne vægte — kør lokalt uden at sende data ud af huset.
Licens og adgang
Åbne vægte, dine data
Download og kør lokalt — dine lydoptagelser forlader aldrig din infrastruktur.
CC BY-NC 4.0
Hviske v5.3 er udgivet med åbne vægte på Hugging Face under CC BY-NC 4.0. Du kan downloade modellen og køre den lokalt — dine lydoptagelser forlader aldrig din infrastruktur.
Licensen tillader fri brug til forskning, undervisning og personlige projekter. Kommerciel brug kræver en separat licens.
Kommerciel licens
Skal modellen bruges i et kommercielt produkt, til on-prem support eller fine-tuning på jeres egne data? Kontakt os for en skræddersyet aftale.
Vi hjælper med opsætning, integration og drift — uanset om det er i skyen eller på egne servere.
Kom i gang
Integrér Hviske på minutter
Hviske v5.3 leveres med et indbygget transcribe() API der håndterer batching, sampling og automatisk chunking af lange optagelser.
import torch, numpy as np, soundfile as sf
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
processor = AutoProcessor.from_pretrained(
"syvai/hviske-v5.3", trust_remote_code=True
)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
"syvai/hviske-v5.3",
trust_remote_code=True,
dtype=torch.bfloat16,
).to("cuda").eval()
audio, sr = sf.read("din_lydfil.wav")
audio = np.asarray(audio, dtype=np.float32)
text = model.transcribe(
processor=processor,
language="da",
audio_arrays=[audio],
sample_rates=[sr],
)[0]
print(text)Modellen håndterer automatisk lyd længere end 35 sekunder via intern chunking. Lyd resamples til 16 kHz.
Benchmarks
State-of-the-art på CoRal v3
Hviske v5.3 leverer de bedste resultater på Danmarks største offentlige benchmark for dansk tale.
CoRal v3 — oplæst (CER)
| Model | Param. | CER |
|---|---|---|
| syvai/hviske-v5.3 | 2B | 3.63% |
| CoRal-project/roest-whisper-1.5b-v1 | 1.54B | 4.0% |
| syvai/hviske-v2 | 1.54B | 4.0% |
| openai/whisper-large-v3 | 1.54B | 10.1% |
CoRal v3 — samtale (CER)
| Model | Param. | CER |
|---|---|---|
| syvai/hviske-v5.3 | 2B | 11.35% |
| CoRal-project/roest-whisper-1.5b-v2 | 1.54B | 11.6% |
| CoRal-project/roest-wav2vec2-315m-v3 | 315M | 13.7% |
| openai/whisper-large-v3 | 1.54B | 27.5% |
| syvai/hviske-v2 | 1.54B | 29.4% |
~425× realtid
Hviske v5.3 transskriberer 60 minutters lyd på ca. 8.5 sekunder på en enkelt NVIDIA RTX 3090 i bfloat16. Det gør den velegnet til både stor-skala batch-processering og lav-latens applikationer.
Tal rapporteret med strict-normalisering. Beam search giver ~0,4 procentpoint lavere WER mod ~75% inferens-overhead.
Anvendelser
Præcis dansk transskription — lokalt
Fire områder hvor præcis dansk transskription uden cloud-overførsel løser et reelt problem.
Medier og podcast
Skalerbar batch-transskription af arkiver. Søgbar tekst på hundredvis af timers lyd.
Kommuner og regioner
Mødereferater og sagsbehandling — uden at sende borgerlyd til OpenAI.
Sundhedssektoren
Lægediktering og journalnotater. GDPR-kritisk; lyden må aldrig forlade huset.
Forskning og sprogteknologi
Korpus-arbejde, sprogforskning, datasæt-annotering på dansk i stor skala.
Klar til at transskribere dansk lyd lokalt?
Test modellen gratis under CC BY-NC 4.0. Kontakt os for kommerciel licens, on-prem support eller fine-tuning på jeres egne data.
Kontakt os