Automatisk mærkning af miljøet: VLM-drevne verdensmodeller for robotter
Del
I 2023 krævede et troværdigt datasæt for husholdningsroboter tusind mandtimer af menneskelige annotatorer, der tegnede bokse omkring krus og stole. I 2026 produceres det samme datasæt natten over af en stak af visionssprogsmodeller, der kører på en enkelt 8-GPU-server. Mennesket er stadig i loopet, men kun som en anmelder af et samplet niveau, ikke som den primære labeler. Denne artikel handler om dette skift - hvad "automatisk labeling" rent faktisk betyder for en robot i dag, hvordan pipelinen ser ud, hvor den går i stykker, og hvorfor computerens fodaftryk er den del, der afgør, om dit team overhovedet kan gøre det.
Dette er en del af robotsporet på Kentino Wiki. Det krydsrefererer R08 (latensargument for dedikeret kantberegning) og I01 (edge AI-arkitektur med on-prem inferens). En fremtidig I05 vil gennemgå referencebuildet, der er dimensioneret til præcis denne arbejdsbelastning.
Hvad automatisk mærkning betyder inden for robotteknologi
Den klassiske computervision-pipeline antog, at etiketter var sjældne og dyre. En afgrænsningsboks omkring en "kop" kostede et menneske ti sekunder og et par cent. En pixelpræcis segmenteringsmaske kostede et minut og en dollar. En frame-by-frame-maske på tværs af et 30 sekunder langt videoklip kostede prisen for en lille bil.
Robotdatasæt er patologiske for den model. En enkelt firbenet bevægelse på en 30 minutters kortlægningskørsel med 30 fps producerer 54,000 billeder. En humanoid teleop-session i løbet af en arbejdsdag producerer hundredtusindvis. Hvert billede ønsker ideelt set:
- Objektafgrænsningsbokse (åbent ordforråd, ikke kun COCOs 80 klasser)
- Instanssegmenteringsmasker (så politikken kan ræsonnere om gribelige områder)
- En scenebeskrivelse i naturligt sprog (så en VLA kan betinges af den)
- Sporet identitet på tværs af frames (så "det røde krus" forbliver det samme krus)
- Valgfrit: 3D-positionsestimater, kombineret med dybde eller LiDAR
Den menneskelige annotator-økonomi for alle disse dør ved de første tusind billeder. "Autolabeling" er paraplybetegnelsen for brugen af grundmodeller - VLM'er, åben-vokabular-detektorer, promptable segmenters - til at producere disse labels med inferenshastigheden snarere end hastigheden af en person, der klikker.
Skiftet siden 2023 er ikke filosofisk, det er mekanisk. Tre ting ændrede sig i det samme atten måneder lange vindue:
- Detektion af åbent ordforråd blev brugbar. Jordforbindelsen for DINO, OWLv2 og Florence-2 gik fra "interessant demo" til "produktionsklasse for ~80% af almindelige objekter" mellem midten af 2024 og slutningen af 2025.
- Promptable videosegmentering er ankommet. SAM 2 (medio 2024) og nu SAM 3 (udgivet november 2025) gjorde det billigt at spore masker på tværs af video givet en substantivfrase-prompt. SAM 3 accepterer især konceptprompter direkte - "gul skolebus" - og returnerer masker plus stabile identiteter.
- VLM'er fik jordforbindelse. Qwen2.5-VL (tidligt i 2025) og de efterfølgende Qwen3-VL-familier udskriver afgrænsningsbokse på det ægte pixelgitter i stabil JSON. Du kan udskrive en 72B VLM med "angiv alle objekter i dette billede som JSON med bbox og en beskrivelse på én sætning" og få noget tilbage, som du kan indsætte i en træningsløkke.
Den aktuelle status for 2026 er ikke én model – det er en sammensat pipeline.
Pipeline-arkitektur
Reference-autolabelingstakken ser sådan ud:
Gemt på lokal NVMe og derefter synkroniseret med serveren
i: ramme + billedtekstvokabular (eller VLM-genereret fritformet billedtekst)
ud: afgrænsningsbokse + klassenavne pr. ramme
ud: masker pr. instans, sporet identitet på tværs af klippet
i: ramme + kasser/masker fra trin 1+2
ud: billedtekst pr. billede, billedtekster pr. objekt, relationer mellem objekter ("krus PÅ tabel")
Projicer etiketter i 3D via dybde + kameraposition
Deduplikering på tværs af visninger, opbygning af objektinstanslager
Anmelder retter i Roboflow / Labelbox / V7
Korrektioner som træningssignal
eller betinge en manipulationspolitik på de mærkede baner
Seks-trins automatisk mærkningspipeline — optag → bearbejd → segmentér → beskriv → akkumuler → gennemgå → træn
Et par ting er værd at nævne, før vi går videre.
First, Trin 1 og 2 kollapses ofte til Grounded-SAM 2, den åbne pipeline fra IDEA-Research, der forbinder Grounding DINO (eller Florence-2 eller DINO-X) til SAM 2 i én omgang. Autolabel-scriptet i det repository er den kanoniske implementering af "bokse og masker fra en navnefrase". Med SAM 3's konceptuelle grænseflade kollapser dette yderligere - du giver den ordene, og du får masker tilbage.
Sekund, Trin 3 er den dyre og den hvor modelvalg betyder mest. En 7B VLM (Qwen2.5-VL 7B, Florence-2 large) vil producere sammenhængende billedtekster billigt, men overser finesser. En 72B-klassemodel producerer dramatisk mere omfattende beskrivelser, får relationerne korrekte oftere og er langt mere nyttig til downstream VLA-træning – til cirka 10 gange prisen pr. frame.
Tredje Trin 4 er, hvad folk mener, når de siger "verdensmodel" i denne sammenhæng. Det er ikke en generativ videomodel som Cosmos Predict. Det er en vedvarende, 3D-bevidst lagring af "hvilke objekter der findes i dette rum, hvor de er, og hvordan de relaterer sig." ConceptGraphs er den kanoniske open source-opskrift; OK-Robot demonstrerede, at den skalerer til ~170 pick-and-place-opgaver på tværs af ti hjem. Verdensmodellen er det, der gør etiketterne genanvendelige: når robotten kommer tilbage i morgen, starter den ikke forfra.
Hvad VLM'er gør godt, og hvor de fejler
Ærlig tabel, fordi markedsføringsmaterialet på hver enkelt af disse modeller er vildledende i forskellige retninger:
| Opgaver | VLM-stakkvalitet (2026) |
|---|---|
| Detektion af fælles objekter (køkken, kontor) | Fantastike — 90%+ genkaldelse, lav hallucination |
| Romankategorier med åbent ordforråd | Godt, men ujævnt — afhænger af formuleringen |
| Pixelpræcis segmentering givet en god boks | Fantastike — SAM 2/3 er i det væsentlige løst |
| Sporing af identitet på tværs af et 30 sekunders klip | God med SAM 3, middelmådig med SAM 2 alene |
| Tælling (hvor mange kopper der er på bordet) | Dårlig — VLM'er hallucinerer vedvarende |
| Små/fjerne objekter | Dårlig — bokse falder pålideligt til under ~20 px |
| Hurtig bevægelse (griber, svinget arm, tabt genstand) | Dårlig — bevægelsessløring dræber både detektion og segmentering |
| Ekstreme lysforhold (blænding, svagt lys, IR) | Dårlig — træningsfordeling dækker ikke dette |
| Gentagne identiske objekter (stablede kasser) | Dårlig — identitetssporing bliver forvirret |
| Nye kategorier fra et nicheindustrielt domæne | Bad — open-vocab er "åben" i ImageNet-land |
| Frit formuleret scenebeskrivelse (et afsnit) | Fantastike — 72B VLM'er er virkelig gode her |
| Rumlige relationer (på, under, bagved) | Godt — Qwen2.5-VL håndterer dette pålideligt |
Det allervigtigste ærlige opkald: automatiske etiketter er støjende. På tværs af litteraturen i 2025-2026 ligger detektion af åbne vokabularer på domæner uden for distribution på 5-15% hallucinationer, afhængigt af hvordan man måler det. GroundCount-artiklen fra tidligere i 2026 rapporterede en forbedring på 6.6 procentpoint i tællepræcisionen blot ved at tilføje eksplicit detektorjording til en VLM - hvilket betyder, at VLM'er alene stadig tager væsentligt fejl i tællinger. Intet af dette er en deal-breaker, men det betyder, at en ren, ureviewet autolabel-pipeline ikke er sikker for sikkerhedskritiske træningsdata.
Den afbødning, der rent faktisk virker i praksis, er todelt stikprøvegennemgangDu autolabeler alt og udtrækker derefter 1-5 % af billederne til menneskelig gennemgang baseret på et usikkerhedssignal (VLM-token-entropi, detektorkonfidens, uenighed mellem flere modeller). Kontrollørerne korrigerer, og disse korrektioner bruges enten som direkte træningsdata eller som feedback til at rekalibrere autolabelerens konfidenstærskler. Dette er det samme loop, som Florence-2 selv blev trænet på — Microsofts FLD-5B-datasæt blev bygget ved at kaskadere specialiserede modeller og derefter sample til gennemgang.
Beregningsfodaftryk — hvorfor dette lander on-prem
Det er den del, der overrasker folk, der ikke har regnet tallene med.
Tag et repræsentativt mål: en times robotoptagelser ved 10 fps fra et stereokamera i 1080p. Det er 36,000 billeder. Du skal bruge alle fire etikettyper: bokse, masker, billedtekster og sporet identitet.
Omtrentlige omkostninger pr. frame på et enkelt RTX 5090 (32 GB, Blackwell, ~104 TFLOPS FP16):
| Stage | Pr. ramme | 36.000 billeder |
|---|---|---|
| Jordforbindelse DINO (Lille) | ~30 ms | ~18 min |
| SAM 2 stor, maske + forplantning | ~25 ms | ~15 min |
| Qwen2.5-VL 7B billedtekst | ~250 ms | ~ 2.5 timer |
| Qwen2.5-VL 72B billedtekst (INT4, batch) | ~1.5–3 sekunder | ~15–30 timer |
| Florence-2 stor (kun billedtekst) | ~80 ms | ~48 min |
Disse tal er i størrelsesordenen — de antager rimelig batching, vLLM-servering og FP16/INT4-kvantisering, hvor det er relevant. SAM 2 alene kører med ~44 fps på en A100 i den originale benchmark, så ~50-60 fps på en 5090 er realistisk.
Den interessante serie er 72B VLM. Hvis du ønsker fyldige scenebeskrivelser for hvert billede fra en 72B-klasse VLM, Du kan ikke gøre det på en enkelt GPU i realtid. Heller ikke dig:
- Subsample kraftigt — undertekster for hver 10. frame, interpoler resten. Det er det, de fleste produktionspipelines rent faktisk gør.
- Brug en mindre VLM (klasse 7B-11B) til per-frame og reserver 72B kun til keyframes.
- Smid flere GPU'er efter det — på hvilket tidspunkt otte 5090'ere i ét kabinet bliver bunden af det praktiske interval.
Den samlede pris for et fuldt autolabel-pas på en times 10 fps-optagelse med 72B i loopet lander på cirka 4-8 GPU-timer på Blackwell-silicium til forbrugere, og 8× 5090 K-AI 256-kabinettet kan færdiggøre det på langt under en time med parallelisme på tværs af GPU'er.
Nu til cloud-matematikken. Den samme arbejdsbyrde på en hyperscaler:
- Beregning: sammenlignelig, måske billigere til spotpris.
- Dataudgang: brutal. En 1080p stereooptagelse ved 10 fps i en time er ~30-80 GB rå, mere hvis du bevarer dybden. At gemme det i skyen og trække labels ud igen koster cents på vej ind og ti dollars på vej ud pr. gennemgang. Robo-DM-artiklen fra Berkeley i 2025 målte dette eksplicit: lagring af 8.9 TB Open-X-data på Google Cloud koster $172/måned, men hver fuld download koster $172-$1,540 afhængigt af niveau. Skaler det på tværs af en flåde, der registrerer hundredvis af timer om ugen, og alene udgangen overstiger capex-afskrivningerne for en enkelt on-prem server inden for et år.
- Latens på løkken: lang. Pointen med automatisk mærkning er det lukkede kredsløb – optag i dag, mærk i aften, finjuster i morgen, og pres forbedret politik inden morgen. En cloud-rundtur tilføjer timers uploadtid på et typisk laboratorie-uplink.
- Privatliv: et problem. Det samme argument for regulerede data fra R08 gælder her. Rå robotvideo fra et patientværelse, en fabriksgulv eller et forsvarslaboratorium går ikke til andres GPU.
Derfor ejer alle seriøse robotlaboratorier i 2026 deres egen automatiske mærkningscomputer. K-AI 256 Turin Dual med 8× RTX 5090 er næsten præcist dimensioneret til denne arbejdsbyrde — 256 GB system-RAM, otte GPU'er til parallelle pipeline-faser, NVMe til datasættets hot-tier. 4× RTX Pro 6000 Blackwell-konfigurationen er opgraderingsstien, når teamet ønsker at køre 72B i FP16 i stedet for INT4 og beholde flere samtidige modeller.
Det lukkede kredsløb
Grunden til, at det lokale fodaftryk betaler sig tilbage, er ikke selve den automatiske mærkning – det er den løkke, det muliggør.
Daglig lukket kredsløb — optag → automatisk etikettering → gennemgå → finjuster → valider → udrul
Dette er den løkke, som OpenVLA-OFT-opskriften (marts 2025) blev designet til: 25-50 gange hurtigere finjustering end standard OpenVLA, designet til at passe på en enkelt GPU-server i arbejdsstationsklassen. FLaRe (ICRA 2025) er analogen til forstærkningslæring. Det kontinuerlige læringsarbejde på adapterbaseret finjustering (OMLA, LifeLong-RFT) giver dig mulighed for at tilpasse dig uden katastrofal glemsel.
Intet af dette fungerer ved cloud-rundturskadence. Løkken er værdien, og løkken kræver, at dataene og beregningen er i samme bygning.
Et konkret eksempel — en humanoid i hjemmet
For at gøre dette konkret, forestil dig den enkleste brugbare autolabel-pipeline for en humanoid, der udfører husholdningsopgaver (fylde opvaskemaskine, folde vasketøj, hente ting fra en mærket skraldespand).
Indspilning: Humanoiden har stereo RGB-kameraer ved 30 fps, håndledskameraer ved 15 fps, dybde fra aktiv stereo, ledtilstande ved 200 Hz. En to-timers session producerer ~250 GB rå på den indbyggede NVMe.
Synkronisere: Ved slutningen af sessionen uploader robotten til laboratoriets K-AI-server via kablet eller Wi-Fi 6E, ~5-10 minutter for 250 GB.
Trin 1+2 (Jordforbundet-SAM 2): Åben ordforrådsdetektion med et domæneordforråd på omkring 200 almindelige navneord ("krus", "spatel", "vasketøjskurv", "blåt viskestykke"...) plus agentens egne sluteffektorer. SAM 2 udbreder masker gennem klemmer. Vægur på 8× 5090: ~45 minutter.
Trin 3 (Qwen2.5-VL): 7B VLM ved hver frame for en kort billedtekst, 72B ved hver tiende frame for en mere detaljeret beskrivelse plus relationer mellem objekter. Vægur: ~3 timer.
Trin 4 (scenegraf): En akkumulator i ConceptGraphs-stil opbygger en vedvarende 3D-scenegraf af lejligheden. Ved udgangen af ugen lever alle objekter, som robotten har set, i grafen med et stabilt ID, sprogbeskrivelser og en grov 3D-position. Vægur: et par minutter pr. session, amortiseret.
Fase 5 (gennemgang): Et internt værktøj viser billeder, hvor VLM'ens klassekonfidens er < 0.6, eller hvor fase 1 og fase 3 er uenige om en klasse. En korrekturlæser håndterer ~500 billeder i timen. Med en samplingsrate på 5 % på en to-timers session er det cirka en times menneskelig tid om dagen.
Trin 6 (træning): De korrigerede etiketter giver en OFT-lignende finjustering af VLA. K-AI-serveren kører dette natten over på den samme hardware, der udførte den automatiske etikettering – arbejdsbelastningerne er sekventerede, ikke samtidige.
Dette er ikke et tankeeksperiment inden for forskning. Det er, hvad 1X, Skild AI og de publicerede grupper, der bruger OpenVLA, rent faktisk gør i 2026, modulo interne variationer. Pipelinen er åben, modellerne er åbne, flaskehalsen er beregnings- og ingeniørindsatsen – ikke adgang til algoritmerne.
Ærlige grænser
Tre ting, som denne artikel ikke bør lade gå ubemærket hen:
Hallucinationer er reelle og vedvarende. Selv med den todelte gennemgang kan du ikke stole på ikke-gennemgåede autolabels til sikkerhedskritisk træning (kollisionsundgåelse, kontaktbeslutninger, alt, hvor en forkert etiket kan skade robotten eller en person). Brug dem til kapacitetstræning, ikke sikkerhedstræning. Af sikkerhedsmæssige årsager ønsker du stadig kuraterede data.
Jordforbindelse uden for distributionen nedbrydes hurtigt. En VLM, der primært er trænet i webbilleder, vil være fremragende i køkkener og kontorer og mærkbart dårligere i et CNC-værksted eller på en hospitalsafdeling. Løsningen er domænespecifik finjustering af selve autolabelmaskinen, hvilket har sine egne omkostninger.
Verdensmodellen er skrøbelig over for miljøændringer. ConceptGraphs og venner antager, at verden er nogenlunde statisk mellem besøg. Flyt møblerne, og scenegrafen skal genopbygges eller aggressivt revalideres. Der arbejdes aktivt på dette (online scenegrafer med åbent ordforråd, Naver Labs-artiklen fra 2025 blandt andre), men behandler verdensmodellen som rådgivende, ikke autoritativ.
Beregningsestimaterne her er grove. Alle tal pr. frame afhænger af batchstrategi, kvantisering, promptlængde og billedopløsning. Behandl tabellen som en størrelsesorden. Størrelsesordenen er det, der betyder noget for dimensioneringen af boksen.
Hvad skal jeg gøre næste
Hvis du vurderer, om du skal stille en automatisk mærkningsstak op:
- Beslut dig for, hvad du rent faktisk har brug for at få mærket. Bokse og masker alene — Grounded-SAM 2 på en enkelt GPU er nok. Billedtekster og relationer — du skal bruge mindst 7B–11B VLM. Uddybende beskrivelser til VLA-træning — du skal bruge 72B-klassen, og du skal budgettere GPU-timerne ærligt.
- Revider dit domæne. Er de objekter, du er interesseret i, en del af træningsdistributionen for åbne ordforrådsdetektorer? Hvis du primært arbejder i køkkener, kontorer eller lagerbygninger – ja. Industrielle eller medicinske specialområder – så planlæg finjustering af den automatiske etiketteringsmaskine, før du stoler på den.
- Planlæg gennemgangsniveauet fra dag ét. Vælg et værktøj (Roboflow, Labelbox, V7 eller et hjemmelavet værktøj med usikkerhedsbaseret sampling) og budgetter mindst én korrekturlæser-fuldtid pr. ti robottimer pr. dag med optagelse. Autolabel-pipelinen erstatter ikke mennesker, den ændrer, hvad mennesker gør.
- Størrelsesbestemmelse af beregningen for trinnet 72B. De andre faser passer til hvad som helst. 72B VLM'en i stor skala er den vare, der retfærdiggør 8-GPU-serveren. Hvis din pipeline kun bruger 7B-klasse VLM'er, er en 4-GPU-boks tilstrækkelig. Hvis du ønsker de mere detaljerede beskrivelser og den lukkede, finjusterede kadens, skal du bruge 8-GPU-konfigurationen.
- Placer lagringsniveauet på NVMe og det kolde niveau på en roterende disk. En uges flådeoptagelse er terabyte. Den automatiske labeler er oftere begrænset af I/O end af GPU-beregning, når du bruger de mindre modeller.
Kentino-serien har K-AI 256 Turin Dual / 8× RTX 5090 dimensioneret til denne arbejdsbyrde i forbruger-silicium-enden, og K-AI 4× RTX Pro 6000 Blackwell i den højere VRAM-ende, når du vil have flere store VLM'er installeret samtidigt. Priser og buildoplysninger findes på de relevante produktsider og i en fremtidig I05-artikel, der gennemgår den fulde referencebuild.
Den nyeste udvikling i denne stak ændrer sig hvert kvartal – SAM 3 er seks måneder gammel, Qwen3-VL er lige blevet sendt ud, og Cosmos Reason 2 er frisk – så de specifikke modeller i denne artikel vil blive dateret hurtigere end arkitekturen. Selve arkitekturen er nu stabil. Bokse, masker, billedtekster, scenegraf, gennemgang, træning, implementering. Det loop går ingen vegne.
Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.