Dots.OCR, en 3 milliarder parameter OCR-modell fra RedNote, er konvertert for å kjøre on-device med Core ML og MLX.
Modellen slo Gemini 2.5 Pro i OmniDocBench. Dots.OCR består av en 1,2B-parameter NaViT-basert visjonstolk og en Qwen2.5-1.5B-backbone; visjonstolk kjører i Core ML og språkmodul i MLX. Konvertering krever å fange PyTorch-grafen (torch.jit.trace eller torch.export) og kompilere med coremltools, med første fokus på FLOAT32, GPU og statiske former før Neural Engine-optimalisering. Vanlige feilrettinger var å forenkle oppmerksomhet til sdpa, legge inn cast etter arange og fjerne repeat_interleave. Dette er AI-nyheter om on-device OCR og kan være relevant for norske utviklere som trenger offline- og energieffektive kunstlig intelligens (KI)-løsninger.
Kilde: https://huggingface.co/blog/dots-ocr-ne | Sammendraget er KI-generert med OpenAI API av Ainy.no
