Home / Inteligência Artificial / Meta lança V‑JEPA 2: IA open‑source com raciocínio físico

Meta lança V‑JEPA 2: IA open‑source com raciocínio físico

Logo da Meta

V‑JEPA 2, da Meta, ensina IA a entender o mundo físico via vídeo. Open‑source, foca em robôs, veículos autônomos e raciocínio causal.

Meta lança V‑JEPA 2: IA que entende o mundo físico

A Meta Platforms anunciou recentemente o V‑JEPA 2 (Video Joint Embedding Predictive Architecture 2), um modelo de IA open‑source treinado com milhões de horas de vídeo, projetado para ajudar agentes de IA — como robôs de entrega e veículos autônomos — a entender e interagir com o mundo físico de uma forma semelhante aos humanos.

O que é o V‑JEPA 2?

O V‑JEPA 2 é um modelo de “world model” — ou modelo de mundo — desenvolvido para criar simulações internas de espaços físicos, permitindo que a IA:

  • Preveja como objetos se moverão,
  • Planeje ações de forma proativa,
  • Reaja a ambientes dinâmicos sem supervisão direta.

Trata-se de uma evolução do V‑JEPA original, com 1,2 bilhão de parâmetros, treinados em mais de 1 milhão de horas de vídeo não anotado. Segundo dados da Meta, o V‑JEPA 2 supera o predecessor em compreensão visual e previsão de ações, sendo capaz até de 60–80% de sucesso em tarefas robóticas como pegar e posicionar objetos jamais vistos antes.

Como funciona?

O modelo opera em duas etapas principais:

  1. Pré‑treinamento auto‑supervisionado com vídeos da internet para capturar padrões de movimento e interação física.
  2. Aprendizado condicionado por ações usando dados limitados de passos de robô (menos de 62 horas) — o que permite executar tarefas sem treinamento específico na arena em que o robô opera .

Testes e resultados

  • Em laboratório, robôs com V‑JEPA 2 foram capazes de alcançar, agarrar e reposicionar objetos em ambientes não vistos — sem ajustes personalizados.
  • Segundo Meta, o V‑JEPA 2 é 30 vezes mais rápido que o modelo Cosmos da Nvidia em aplicações comparáveis.

Por que isso é importante?

1. Raciocínio físico semelhante ao humano

O modelo ensina a IA a internalizar leis físicas básicas — como a gravidade — de modo intuitivo, comparável ao que um humano faz ao prever onde uma bola cairá .

2. Uso extensivo em robótica e veículos

Aplicações incluem desde robôs autônomos em fábricas até drones, veículos autônomos e sistemas de manuseio em logística.

3. Abordagem open‑source

Com código e três novos benchmarks (IntPhys 2, MVPBench, CausalVQA), a Meta oferece ferramentas para que a comunidade avalie e compare a IA no entendimento do mundo físico.

Comparação com rivais

  • O V‑JEPA 2 disputa diretamente com o Nvidia** Cosmos**, destacando-se pela maior velocidade.
  • Google DeepMind também trabalha em modelos similares (“Genie”), enquanto startups como World Labs (de Fei‑Fei Li) atraem investimentos multimilionários.

Desafios e próximos passos

Apesar dos avanços, há limitações:

  • A dependência de computação intensiva e dados massivos ainda impõe barreiras.
  • O foco exclusivo em vídeo pode restringir desempenho em tarefas multimodais (como som ou toque) .
  • Testes fora de ambiente controlado ainda são incertos: 80% de acerto em laboratório pode cair no mundo real .
  • Transparência sobre a comparação com outras IAs ainda é necessária .

O que vem por aí?

A Meta planeja investir US$14 bilhões na Scale AI para rotular dados e acelerar o desenvolvimento de sua linha de IA, incluindo projetos como V‑JEPA 2 e LLaMA 4.
Um direcionamento promissor seria a integração com IA multimodal, incorporando dados de áudio e sensoriais em tempo real — fortalecendo ainda mais o “world model”.