NVIDIA Parakeet ASR hostes på Amazon SageMaker

AI-nyheter: NVIDIA Parakeet ASR-modeller kan nå kjøres asynkront på Amazon SageMaker AI for skalerbar talegjenkjenning.

SageMaker AI kan hoste Parakeet ASR med asynkrone endepunkter som behandler lange og batchede lydjobber i bakgrunnen, med mulighet for autoskalering til null ved inaktivitet. Løsningen beskrives med en pipeline der lydfiler lastes opp til Amazon S3, som utløser AWS Lambda for metadatahåndtering og oppstart av arbeidsflyten. SageMaker-endepunktet sender suksess- og feilmeldinger via Amazon SNS, transkripsjoner lagres tilbake i S3 og kan deretter sendes til Amazon Bedrock LLM for oppsummering og videre prosessering. Et DynamoDB-basert sporingssystem lagrer status og metadata for sanntidsovervåkning. Parakeet-familien bruker Fast Conformer-encoder med CTC eller transducer-dekoder og gir inntil 2,4× raskere behandling enn standard Conformers. NVIDIA tilbyr NIM-containerne og Riva-rammeverket som GPU-akselererte, containeriserte mikro­tjenester for tale-AI, med støtte for over 36 språk.

Implementeringen inkluderer en innovativ HTTP+gRPC-arkitektur som eksponerer ett SageMaker-endepunkt med automatisk ruting: HTTP er optimalisert for filer under 5MB, mens gRPC håndterer større payloads og funksjoner som speaker diarization (realtidsendepunkter støtter inntil 25MB). Teknologistakken er brukt i arbeid med kunstlig intelligens (KI), inkludert integrasjon mot LLM og NVIDIA Nemo Retriever.

Relevans for Norge: Løsningen er aktuell for norske virksomheter som håndterer store mengder lyddata, for eksempel kontakt­sentre, tilgjengelighetstjenester og bedrifter som trenger skalerbar transkripsjon og oppsummering.

Kilde: https://aws.amazon.com/blogs/machine-learning/hosting-nvidia-speech-nim-models-on-amazon-sagemaker-ai-parakeet-asr | Sammendraget er KI-generert med OpenAI API av Ainy.no