Automatisk mærkning af miljøet: VLM-drevne verdensmodeller for robotter

I 2023 krævede et troværdigt datasæt for husholdningsroboter tusind mandtimer af menneskelige annotatorer, der tegnede bokse omkring krus og stole. I 2026 produceres det samme datasæt natten over af en stak af visionssprogsmodeller, der kører på en enkelt 8-GPU-server. Mennesket er stadig i loopet, men kun som en anmelder af et samplet niveau, ikke som den primære labeler. Denne artikel handler om dette skift - hvad "automatisk labeling" rent faktisk betyder for en robot i dag, hvordan pipelinen ser ud, hvor den går i stykker, og hvorfor computerens fodaftryk er den del, der afgør, om dit team overhovedet kan gøre det.

Dette er en del af robotsporet på Kentino Wiki. Det krydsrefererer R08 (latensargument for dedikeret kantberegning) og I01 (edge ​​AI-arkitektur med on-prem inferens). En fremtidig I05 vil gennemgå referencebuildet, der er dimensioneret til præcis denne arbejdsbelastning.

Hvad automatisk mærkning betyder inden for robotteknologi

Den klassiske computervision-pipeline antog, at etiketter var sjældne og dyre. En afgrænsningsboks omkring en "kop" kostede et menneske ti sekunder og et par cent. En pixelpræcis segmenteringsmaske kostede et minut og en dollar. En frame-by-frame-maske på tværs af et 30 sekunder langt videoklip kostede prisen for en lille bil.

Robotdatasæt er patologiske for den model. En enkelt firbenet bevægelse på en 30 minutters kortlægningskørsel med 30 fps producerer 54,000 billeder. En humanoid teleop-session i løbet af en arbejdsdag producerer hundredtusindvis. Hvert billede ønsker ideelt set:

  • Objektafgrænsningsbokse (åbent ordforråd, ikke kun COCOs 80 klasser)
  • Instanssegmenteringsmasker (så politikken kan ræsonnere om gribelige områder)
  • En scenebeskrivelse i naturligt sprog (så en VLA kan betinges af den)
  • Sporet identitet på tværs af frames (så "det røde krus" forbliver det samme krus)
  • Valgfrit: 3D-positionsestimater, kombineret med dybde eller LiDAR

Den menneskelige annotator-økonomi for alle disse dør ved de første tusind billeder. "Autolabeling" er paraplybetegnelsen for brugen af ​​​​grundmodeller - VLM'er, åben-vokabular-detektorer, promptable segmenters - til at producere disse labels med inferenshastigheden snarere end hastigheden af ​​​​en person, der klikker.

Skiftet siden 2023 er ikke filosofisk, det er mekanisk. Tre ting ændrede sig i det samme atten måneder lange vindue:

  1. Detektion af åbent ordforråd blev brugbar. Jordforbindelsen for DINO, OWLv2 og Florence-2 gik fra "interessant demo" til "produktionsklasse for ~80% af almindelige objekter" mellem midten af ​​2024 og slutningen af ​​2025.
  2. Promptable videosegmentering er ankommet. SAM 2 (medio 2024) og nu SAM 3 (udgivet november 2025) gjorde det billigt at spore masker på tværs af video givet en substantivfrase-prompt. SAM 3 accepterer især konceptprompter direkte - "gul skolebus" - og returnerer masker plus stabile identiteter.
  3. VLM'er fik jordforbindelse. Qwen2.5-VL (tidligt i 2025) og de efterfølgende Qwen3-VL-familier udskriver afgrænsningsbokse på det ægte pixelgitter i stabil JSON. Du kan udskrive en 72B VLM med "angiv alle objekter i dette billede som JSON med bbox og en beskrivelse på én sætning" og få noget tilbage, som du kan indsætte i en træningsløkke.

Den aktuelle status for 2026 er ikke én model – det er en sammensat pipeline.

Pipeline-arkitektur

Reference-autolabelingstakken ser sådan ud:

Robotrekord
RGB + dybde + IMU + fælles tilstande, 10-30 fps
Gemt på lokal NVMe og derefter synkroniseret med serveren
Trin 1 — Grundlæggende forståelse af åbent ordforråd
Jordforbindelse DINO | OWLv2 | Florence-2
i: ramme + billedtekstvokabular (eller VLM-genereret fritformet billedtekst)
ud: afgrænsningsbokse + klassenavne pr. ramme
Fase 2 — Promptable segmentering + sporing
SAM 2 eller SAM 3 med fase 1-bokse som prompts
ud: masker pr. instans, sporet identitet på tværs af klippet
Fase 3 — Scenebeskrivelse + relationer
Qwen2.5-VL 72B | Cosmos Reason 2
i: ramme + kasser/masker fra trin 1+2
ud: billedtekst pr. billede, billedtekster pr. objekt, relationer mellem objekter ("krus PÅ tabel")
Fase 4 — Akkumulering af verdensmodellen
3D-scenegraf i ConceptGraphs-stil
Projicer etiketter i 3D via dybde + kameraposition
Deduplikering på tværs af visninger, opbygning af objektinstanslager
Trin 5 — Gennemgang af mennesker (stikprøveudvalg)
1-5% af billederne trukket af usikkerhedsscore
Anmelder retter i Roboflow / Labelbox / V7
Korrektioner som træningssignal
Fase 6 — Politisk træning / konditionering
Finjuster VLA (OpenVLA-klasse, OFT-opskrift)
eller betinge en manipulationspolitik på de mærkede baner

Seks-trins automatisk mærkningspipeline — optag → bearbejd → segmentér → beskriv → akkumuler → gennemgå → træn

Et par ting er værd at nævne, før vi går videre.

First, Trin 1 og 2 kollapses ofte til Grounded-SAM 2, den åbne pipeline fra IDEA-Research, der forbinder Grounding DINO (eller Florence-2 eller DINO-X) til SAM 2 i én omgang. Autolabel-scriptet i det repository er den kanoniske implementering af "bokse og masker fra en navnefrase". Med SAM 3's konceptuelle grænseflade kollapser dette yderligere - du giver den ordene, og du får masker tilbage.

Sekund, Trin 3 er den dyre og den hvor modelvalg betyder mest. En 7B VLM (Qwen2.5-VL 7B, Florence-2 large) vil producere sammenhængende billedtekster billigt, men overser finesser. En 72B-klassemodel producerer dramatisk mere omfattende beskrivelser, får relationerne korrekte oftere og er langt mere nyttig til downstream VLA-træning – til cirka 10 gange prisen pr. frame.

Tredje Trin 4 er, hvad folk mener, når de siger "verdensmodel" i denne sammenhæng. Det er ikke en generativ videomodel som Cosmos Predict. Det er en vedvarende, 3D-bevidst lagring af "hvilke objekter der findes i dette rum, hvor de er, og hvordan de relaterer sig." ConceptGraphs er den kanoniske open source-opskrift; OK-Robot demonstrerede, at den skalerer til ~170 pick-and-place-opgaver på tværs af ti hjem. Verdensmodellen er det, der gør etiketterne genanvendelige: når robotten kommer tilbage i morgen, starter den ikke forfra.

Hvad VLM'er gør godt, og hvor de fejler

Ærlig tabel, fordi markedsføringsmaterialet på hver enkelt af disse modeller er vildledende i forskellige retninger:

VLM-stakkvalitet — 2026-vurdering efter opgavetype
Opgaver VLM-stakkvalitet (2026)
Detektion af fælles objekter (køkken, kontor) Fantastike — 90%+ genkaldelse, lav hallucination
Romankategorier med åbent ordforråd Godt, men ujævnt — afhænger af formuleringen
Pixelpræcis segmentering givet en god boks Fantastike — SAM 2/3 er i det væsentlige løst
Sporing af identitet på tværs af et 30 sekunders klip God med SAM 3, middelmådig med SAM 2 alene
Tælling (hvor mange kopper der er på bordet) Dårlig — VLM'er hallucinerer vedvarende
Små/fjerne objekter Dårlig — bokse falder pålideligt til under ~20 px
Hurtig bevægelse (griber, svinget arm, tabt genstand) Dårlig — bevægelsessløring dræber både detektion og segmentering
Ekstreme lysforhold (blænding, svagt lys, IR) Dårlig — træningsfordeling dækker ikke dette
Gentagne identiske objekter (stablede kasser) Dårlig — identitetssporing bliver forvirret
Nye kategorier fra et nicheindustrielt domæne Bad — open-vocab er "åben" i ImageNet-land
Frit formuleret scenebeskrivelse (et afsnit) Fantastike — 72B VLM'er er virkelig gode her
Rumlige relationer (på, under, bagved) Godt — Qwen2.5-VL håndterer dette pålideligt

Det allervigtigste ærlige opkald: automatiske etiketter er støjende. På tværs af litteraturen i 2025-2026 ligger detektion af åbne vokabularer på domæner uden for distribution på 5-15% hallucinationer, afhængigt af hvordan man måler det. GroundCount-artiklen fra tidligere i 2026 rapporterede en forbedring på 6.6 procentpoint i tællepræcisionen blot ved at tilføje eksplicit detektorjording til en VLM - hvilket betyder, at VLM'er alene stadig tager væsentligt fejl i tællinger. Intet af dette er en deal-breaker, men det betyder, at en ren, ureviewet autolabel-pipeline ikke er sikker for sikkerhedskritiske træningsdata.

Den afbødning, der rent faktisk virker i praksis, er todelt stikprøvegennemgangDu autolabeler alt og udtrækker derefter 1-5 % af billederne til menneskelig gennemgang baseret på et usikkerhedssignal (VLM-token-entropi, detektorkonfidens, uenighed mellem flere modeller). Kontrollørerne korrigerer, og disse korrektioner bruges enten som direkte træningsdata eller som feedback til at rekalibrere autolabelerens konfidenstærskler. Dette er det samme loop, som Florence-2 selv blev trænet på — Microsofts FLD-5B-datasæt blev bygget ved at kaskadere specialiserede modeller og derefter sample til gennemgang.

Beregningsfodaftryk — hvorfor dette lander on-prem

Det er den del, der overrasker folk, der ikke har regnet tallene med.

Tag et repræsentativt mål: en times robotoptagelser ved 10 fps fra et stereokamera i 1080p. Det er 36,000 billeder. Du skal bruge alle fire etikettyper: bokse, masker, billedtekster og sporet identitet.

Omtrentlige omkostninger pr. frame på et enkelt RTX 5090 (32 GB, Blackwell, ~104 TFLOPS FP16):

Beregning pr. trin — 36.000 billeder på et enkelt RTX 5090
Stage Pr. ramme 36.000 billeder
Jordforbindelse DINO (Lille) ~30 ms ~18 min
SAM 2 stor, maske + forplantning ~25 ms ~15 min
Qwen2.5-VL 7B billedtekst ~250 ms ~ 2.5 timer
Qwen2.5-VL 72B billedtekst (INT4, batch) ~1.5–3 sekunder ~15–30 timer
Florence-2 stor (kun billedtekst) ~80 ms ~48 min

Disse tal er i størrelsesordenen — de antager rimelig batching, vLLM-servering og FP16/INT4-kvantisering, hvor det er relevant. SAM 2 alene kører med ~44 fps på en A100 i den originale benchmark, så ~50-60 fps på en 5090 er realistisk.

Den interessante serie er 72B VLM. Hvis du ønsker fyldige scenebeskrivelser for hvert billede fra en 72B-klasse VLM, Du kan ikke gøre det på en enkelt GPU i realtid. Heller ikke dig:

  1. Subsample kraftigt — undertekster for hver 10. frame, interpoler resten. Det er det, de fleste produktionspipelines rent faktisk gør.
  2. Brug en mindre VLM (klasse 7B-11B) til per-frame og reserver 72B kun til keyframes.
  3. Smid flere GPU'er efter det — på hvilket tidspunkt otte 5090'ere i ét kabinet bliver bunden af ​​det praktiske interval.

Den samlede pris for et fuldt autolabel-pas på en times 10 fps-optagelse med 72B i loopet lander på cirka 4-8 GPU-timer på Blackwell-silicium til forbrugere, og 8× 5090 K-AI 256-kabinettet kan færdiggøre det på langt under en time med parallelisme på tværs af GPU'er.

Nu til cloud-matematikken. Den samme arbejdsbyrde på en hyperscaler:

  • Beregning: sammenlignelig, måske billigere til spotpris.
  • Dataudgang: brutal. En 1080p stereooptagelse ved 10 fps i en time er ~30-80 GB rå, mere hvis du bevarer dybden. At gemme det i skyen og trække labels ud igen koster cents på vej ind og ti dollars på vej ud pr. gennemgang. Robo-DM-artiklen fra Berkeley i 2025 målte dette eksplicit: lagring af 8.9 TB Open-X-data på Google Cloud koster $172/måned, men hver fuld download koster $172-$1,540 afhængigt af niveau. Skaler det på tværs af en flåde, der registrerer hundredvis af timer om ugen, og alene udgangen overstiger capex-afskrivningerne for en enkelt on-prem server inden for et år.
  • Latens på løkken: lang. Pointen med automatisk mærkning er det lukkede kredsløb – optag i dag, mærk i aften, finjuster i morgen, og pres forbedret politik inden morgen. En cloud-rundtur tilføjer timers uploadtid på et typisk laboratorie-uplink.
  • Privatliv: et problem. Det samme argument for regulerede data fra R08 gælder her. Rå robotvideo fra et patientværelse, en fabriksgulv eller et forsvarslaboratorium går ikke til andres GPU.

Derfor ejer alle seriøse robotlaboratorier i 2026 deres egen automatiske mærkningscomputer. K-AI 256 Turin Dual med 8× RTX 5090 er næsten præcist dimensioneret til denne arbejdsbyrde — 256 GB system-RAM, otte GPU'er til parallelle pipeline-faser, NVMe til datasættets hot-tier. 4× RTX Pro 6000 Blackwell-konfigurationen er opgraderingsstien, når teamet ønsker at køre 72B i FP16 i stedet for INT4 og beholde flere samtidige modeller.

Det lukkede kredsløb

Grunden til, at det lokale fodaftryk betaler sig tilbage, er ikke selve den automatiske mærkning – det er den løkke, det muliggør.

Dag og aften
Robotflåden vender tilbage fra udrulning, synkroniserer ~6 timers optagelser
Dag og nat
Server autolabels natten over (4-8 GPU-timer pr. robottime)
Dag N+1 morgen
Anmelderteamet håndterer det markerede niveau 1-5%
Dag N+1 eftermiddag
LoRA/OFT finjustering af VLA-politikken
Dag N+1 aften
Nye vægte pakket, valideret i sim
Dag N+2 morgen
Udrykning til flåde, robotter implementeres med opdateret politik

Daglig lukket kredsløb — optag → automatisk etikettering → gennemgå → finjuster → valider → udrul

Dette er den løkke, som OpenVLA-OFT-opskriften (marts 2025) blev designet til: 25-50 gange hurtigere finjustering end standard OpenVLA, designet til at passe på en enkelt GPU-server i arbejdsstationsklassen. FLaRe (ICRA 2025) er analogen til forstærkningslæring. Det kontinuerlige læringsarbejde på adapterbaseret finjustering (OMLA, LifeLong-RFT) giver dig mulighed for at tilpasse dig uden katastrofal glemsel.

Intet af dette fungerer ved cloud-rundturskadence. Løkken er værdien, og løkken kræver, at dataene og beregningen er i samme bygning.

Et konkret eksempel — en humanoid i hjemmet

For at gøre dette konkret, forestil dig den enkleste brugbare autolabel-pipeline for en humanoid, der udfører husholdningsopgaver (fylde opvaskemaskine, folde vasketøj, hente ting fra en mærket skraldespand).

Indspilning: Humanoiden har stereo RGB-kameraer ved 30 fps, håndledskameraer ved 15 fps, dybde fra aktiv stereo, ledtilstande ved 200 Hz. En to-timers session producerer ~250 GB rå på den indbyggede NVMe.

Synkronisere: Ved slutningen af ​​sessionen uploader robotten til laboratoriets K-AI-server via kablet eller Wi-Fi 6E, ~5-10 minutter for 250 GB.

Trin 1+2 (Jordforbundet-SAM 2): Åben ordforrådsdetektion med et domæneordforråd på omkring 200 almindelige navneord ("krus", "spatel", "vasketøjskurv", "blåt viskestykke"...) plus agentens egne sluteffektorer. SAM 2 udbreder masker gennem klemmer. Vægur på 8× 5090: ~45 minutter.

Trin 3 (Qwen2.5-VL): 7B VLM ved hver frame for en kort billedtekst, 72B ved hver tiende frame for en mere detaljeret beskrivelse plus relationer mellem objekter. Vægur: ~3 timer.

Trin 4 (scenegraf): En akkumulator i ConceptGraphs-stil opbygger en vedvarende 3D-scenegraf af lejligheden. Ved udgangen af ​​ugen lever alle objekter, som robotten har set, i grafen med et stabilt ID, sprogbeskrivelser og en grov 3D-position. Vægur: et par minutter pr. session, amortiseret.

Fase 5 (gennemgang): Et internt værktøj viser billeder, hvor VLM'ens klassekonfidens er < 0.6, eller hvor fase 1 og fase 3 er uenige om en klasse. En korrekturlæser håndterer ~500 billeder i timen. Med en samplingsrate på 5 % på en to-timers session er det cirka en times menneskelig tid om dagen.

Trin 6 (træning): De korrigerede etiketter giver en OFT-lignende finjustering af VLA. K-AI-serveren kører dette natten over på den samme hardware, der udførte den automatiske etikettering – arbejdsbelastningerne er sekventerede, ikke samtidige.

Dette er ikke et tankeeksperiment inden for forskning. Det er, hvad 1X, Skild AI og de publicerede grupper, der bruger OpenVLA, rent faktisk gør i 2026, modulo interne variationer. Pipelinen er åben, modellerne er åbne, flaskehalsen er beregnings- og ingeniørindsatsen – ikke adgang til algoritmerne.

Ærlige grænser

Tre ting, som denne artikel ikke bør lade gå ubemærket hen:

Hallucinationer er reelle og vedvarende. Selv med den todelte gennemgang kan du ikke stole på ikke-gennemgåede autolabels til sikkerhedskritisk træning (kollisionsundgåelse, kontaktbeslutninger, alt, hvor en forkert etiket kan skade robotten eller en person). Brug dem til kapacitetstræning, ikke sikkerhedstræning. Af sikkerhedsmæssige årsager ønsker du stadig kuraterede data.

Jordforbindelse uden for distributionen nedbrydes hurtigt. En VLM, der primært er trænet i webbilleder, vil være fremragende i køkkener og kontorer og mærkbart dårligere i et CNC-værksted eller på en hospitalsafdeling. Løsningen er domænespecifik finjustering af selve autolabelmaskinen, hvilket har sine egne omkostninger.

Verdensmodellen er skrøbelig over for miljøændringer. ConceptGraphs og venner antager, at verden er nogenlunde statisk mellem besøg. Flyt møblerne, og scenegrafen skal genopbygges eller aggressivt revalideres. Der arbejdes aktivt på dette (online scenegrafer med åbent ordforråd, Naver Labs-artiklen fra 2025 blandt andre), men behandler verdensmodellen som rådgivende, ikke autoritativ.

Beregningsestimaterne her er grove. Alle tal pr. frame afhænger af batchstrategi, kvantisering, promptlængde og billedopløsning. Behandl tabellen som en størrelsesorden. Størrelsesordenen er det, der betyder noget for dimensioneringen af ​​boksen.

Hvad skal jeg gøre næste

Hvis du vurderer, om du skal stille en automatisk mærkningsstak op:

  1. Beslut dig for, hvad du rent faktisk har brug for at få mærket. Bokse og masker alene — Grounded-SAM 2 på en enkelt GPU er nok. Billedtekster og relationer — du skal bruge mindst 7B–11B VLM. Uddybende beskrivelser til VLA-træning — du skal bruge 72B-klassen, og du skal budgettere GPU-timerne ærligt.
  2. Revider dit domæne. Er de objekter, du er interesseret i, en del af træningsdistributionen for åbne ordforrådsdetektorer? Hvis du primært arbejder i køkkener, kontorer eller lagerbygninger – ja. Industrielle eller medicinske specialområder – så planlæg finjustering af den automatiske etiketteringsmaskine, før du stoler på den.
  3. Planlæg gennemgangsniveauet fra dag ét. Vælg et værktøj (Roboflow, Labelbox, V7 eller et hjemmelavet værktøj med usikkerhedsbaseret sampling) og budgetter mindst én korrekturlæser-fuldtid pr. ti robottimer pr. dag med optagelse. Autolabel-pipelinen erstatter ikke mennesker, den ændrer, hvad mennesker gør.
  4. Størrelsesbestemmelse af beregningen for trinnet 72B. De andre faser passer til hvad som helst. 72B VLM'en i stor skala er den vare, der retfærdiggør 8-GPU-serveren. Hvis din pipeline kun bruger 7B-klasse VLM'er, er en 4-GPU-boks tilstrækkelig. Hvis du ønsker de mere detaljerede beskrivelser og den lukkede, finjusterede kadens, skal du bruge 8-GPU-konfigurationen.
  5. Placer lagringsniveauet på NVMe og det kolde niveau på en roterende disk. En uges flådeoptagelse er terabyte. Den automatiske labeler er oftere begrænset af I/O end af GPU-beregning, når du bruger de mindre modeller.

Kentino-serien har K-AI 256 Turin Dual / 8× RTX 5090 dimensioneret til denne arbejdsbyrde i forbruger-silicium-enden, og K-AI 4× RTX Pro 6000 Blackwell i den højere VRAM-ende, når du vil have flere store VLM'er installeret samtidigt. Priser og buildoplysninger findes på de relevante produktsider og i en fremtidig I05-artikel, der gennemgår den fulde referencebuild.

Den nyeste udvikling i denne stak ændrer sig hvert kvartal – SAM 3 er seks måneder gammel, Qwen3-VL er lige blevet sendt ud, og Cosmos Reason 2 er frisk – så de specifikke modeller i denne artikel vil blive dateret hurtigere end arkitekturen. Selve arkitekturen er nu stabil. Bokse, masker, billedtekster, scenegraf, gennemgang, træning, implementering. Det loop går ingen vegne.


Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.

Tilbage til bloggen