V‑JEPA 2, da Meta, ensina IA a entender o mundo físico via vídeo. Open‑source, foca em robôs, veículos autônomos e raciocínio causal.
Meta lança V‑JEPA 2: IA que entende o mundo físico
A Meta Platforms anunciou recentemente o V‑JEPA 2 (Video Joint Embedding Predictive Architecture 2), um modelo de IA open‑source treinado com milhões de horas de vídeo, projetado para ajudar agentes de IA — como robôs de entrega e veículos autônomos — a entender e interagir com o mundo físico de uma forma semelhante aos humanos.
O que é o V‑JEPA 2?
O V‑JEPA 2 é um modelo de “world model” — ou modelo de mundo — desenvolvido para criar simulações internas de espaços físicos, permitindo que a IA:
- Preveja como objetos se moverão,
- Planeje ações de forma proativa,
- Reaja a ambientes dinâmicos sem supervisão direta.
Trata-se de uma evolução do V‑JEPA original, com 1,2 bilhão de parâmetros, treinados em mais de 1 milhão de horas de vídeo não anotado. Segundo dados da Meta, o V‑JEPA 2 supera o predecessor em compreensão visual e previsão de ações, sendo capaz até de 60–80% de sucesso em tarefas robóticas como pegar e posicionar objetos jamais vistos antes.
Como funciona?
O modelo opera em duas etapas principais:
- Pré‑treinamento auto‑supervisionado com vídeos da internet para capturar padrões de movimento e interação física.
- Aprendizado condicionado por ações usando dados limitados de passos de robô (menos de 62 horas) — o que permite executar tarefas sem treinamento específico na arena em que o robô opera .
Testes e resultados
- Em laboratório, robôs com V‑JEPA 2 foram capazes de alcançar, agarrar e reposicionar objetos em ambientes não vistos — sem ajustes personalizados.
- Segundo Meta, o V‑JEPA 2 é 30 vezes mais rápido que o modelo Cosmos da Nvidia em aplicações comparáveis.
Por que isso é importante?
1. Raciocínio físico semelhante ao humano
O modelo ensina a IA a internalizar leis físicas básicas — como a gravidade — de modo intuitivo, comparável ao que um humano faz ao prever onde uma bola cairá .
2. Uso extensivo em robótica e veículos
Aplicações incluem desde robôs autônomos em fábricas até drones, veículos autônomos e sistemas de manuseio em logística.
3. Abordagem open‑source
Com código e três novos benchmarks (IntPhys 2, MVPBench, CausalVQA), a Meta oferece ferramentas para que a comunidade avalie e compare a IA no entendimento do mundo físico.
Comparação com rivais
- O V‑JEPA 2 disputa diretamente com o Nvidia** Cosmos**, destacando-se pela maior velocidade.
- Google DeepMind também trabalha em modelos similares (“Genie”), enquanto startups como World Labs (de Fei‑Fei Li) atraem investimentos multimilionários.
Desafios e próximos passos
Apesar dos avanços, há limitações:
- A dependência de computação intensiva e dados massivos ainda impõe barreiras.
- O foco exclusivo em vídeo pode restringir desempenho em tarefas multimodais (como som ou toque) .
- Testes fora de ambiente controlado ainda são incertos: 80% de acerto em laboratório pode cair no mundo real .
- Transparência sobre a comparação com outras IAs ainda é necessária .
O que vem por aí?
A Meta planeja investir US$14 bilhões na Scale AI para rotular dados e acelerar o desenvolvimento de sua linha de IA, incluindo projetos como V‑JEPA 2 e LLaMA 4.
Um direcionamento promissor seria a integração com IA multimodal, incorporando dados de áudio e sensoriais em tempo real — fortalecendo ainda mais o “world model”.