Enquanto as empresas de tecnologia correm para mostrar a inteligência de seus modelos de IA, um adolescente adotou uma abordagem diferente ao usar o Minecraft para descobrir qual modelo realmente constrói melhor.
Um estudante do ensino médio desenvolveu uma maneira única de testar modelos de IA fazendo-os competir em desafios de construção do Minecraft. Adi Singh, um aluno do 12º ano, criou um site chamado MC-Bench, que permite aos usuários solicitar a vários modelos de IA que construam estruturas no popular jogo sandbox. Os modelos geram código para concluir as construções, e os usuários votam em qual resultado preferem sem saber inicialmente qual modelo fez qual criação.
A ideia por trás do projeto é oferecer um benchmark mais intuitivo e visualmente envolvente para o desempenho da IA. O amplo reconhecimento do Minecraft torna mais fácil para as pessoas avaliarem os resultados, Singh explicou, especialmente em comparação com benchmarks técnicos que frequentemente favorecem modelos treinados em conjuntos de dados semelhantes.
O projeto é apoiado por desenvolvedores voluntários e recebeu suporte de infraestrutura de grandes players como OpenAI, Google, Anthropic e Alibaba, embora nenhum deles seja oficialmente afiliado. Embora os prompts atuais sejam simples, Singh espera expandir para tarefas mais complexas e orientadas a objetivos, vendo os jogos como um campo de testes mais seguro e controlado para o raciocínio de IA.
O MC-Bench faz parte de uma tendência mais ampla que explora alternativas aos benchmarks de IA padrão, que frequentemente revelam inconsistências nas habilidades do modelo. Enquanto alguns modelos se destacam em testes acadêmicos, eles têm dificuldades com tarefas que exigem raciocínio básico. Singh acredita que seu benchmark baseado no Minecraft reflete o desempenho do mundo real com mais precisão e pode ajudar as empresas a direcionar o desenvolvimento de IA em direções mais práticas.