Dados sintéticos: treinar modelos com dados gerados por modelos
Por que dados sintéticos viraram necessidade no treino de modelos, o risco de colapso, e o papel da curadoria e da verificação.
Paul Gomes
Autor
A internet pública já foi raspada. O que sobrou de texto humano de alta qualidade e ainda não digerido por um modelo é escasso, caro ou trancado atrás de licenças. É nesse vácuo que os dados sintéticos — exemplos gerados por modelos para treinar outros modelos — deixaram de ser um truque marginal e viraram infraestrutura. A questão já não é se você vai usar dados sintéticos, mas se vai fazê-lo sabendo o que está fazendo, ou se vai envenenar o próprio poço achando que está enchendo o balde.
Por que a escassez forçou a mão
O regime de pré-treino da última década se apoiou numa premissa confortável: quanto mais texto humano, melhor. Leis de escala relacionam desempenho a três eixos — parâmetros, computação e dados — e por muito tempo o dado foi o insumo abundante. Deixou de ser. Modelos de fronteira já consomem uma fração significativa do texto de qualidade disponível em escala pública, e o crescimento de conteúdo humano novo não acompanha o apetite de treino, que cresce em ordens de grandeza.
Some a isso um detalhe incômodo: parte crescente do que se publica hoje na web já é gerada por modelos. Ou seja, mesmo o “dado humano” que você raspa amanhã vem contaminado por saída de IA que você não controla e não consegue rotular. A escolha real não é entre dado sintético e dado puro. É entre dado sintético que você projetou, curou e verificou, e dado sintético anônimo que entrou pela porta dos fundos.
Há ainda um motivo mais nobre que a escassez. Para certas capacidades — raciocínio matemático, uso de ferramentas, seguir instruções, código que compila e passa em teste — o dado humano é raro justamente porque é caro de produzir. Ninguém escreve na internet a cadeia de raciocínio completa que leva de um enunciado a uma prova. Dado sintético permite fabricar exatamente o tipo de exemplo que o mundo não gera espontaneamente.
O que “sintético” quer dizer na prática
O termo esconde técnicas muito diferentes, e tratá-las como uma coisa só é a origem de metade da confusão.
Há a destilação, em que um modelo grande e caro gera respostas que treinam um modelo menor — o aluno aprende a imitar o professor, comprimindo capacidade em menos parâmetros. Há a geração com verificação, em que o modelo produz muitas soluções candidatas e um verificador externo filtra as corretas: em matemática e código isso é poderoso porque a correção é checável de forma barata e objetiva. Há a aumentação, que reescreve, parafraseia e reformata dado existente para multiplicar variações. E há a geração de cenários e diálogos para domínios onde coletar dado real esbarra em privacidade, custo ou risco — saúde, fraude, casos raros.
O que essas técnicas têm em comum não é a origem. É a dependência de um sinal externo de qualidade. Onde existe verificador confiável, dado sintético é quase dinheiro grátis. Onde não existe, ele é uma aposta que pode sair muito cara.
O colapso de modelo é real, mas mal compreendido
O medo mais citado tem nome: colapso de modelo. A ideia é que, ao treinar sucessivamente um modelo com a saída do modelo anterior, num loop fechado, a distribuição aprendida vai degenerar. As caudas da distribuição — os eventos raros, as variações incomuns, o vocabulário de baixa frequência — desaparecem primeiro. A cada geração, o modelo aprende uma versão cada vez mais estreita e média da realidade, até convergir para algo homogêneo e empobrecido. É a fotocópia da fotocópia da fotocópia.
O mecanismo é sólido e vale entender com precisão, porque explica quando o risco morde e quando não morde. Duas coisas empurram o colapso. A primeira é o erro de aproximação: nenhum modelo captura a distribuição real perfeitamente, e treinar sobre a própria saída empilha esse erro em cima de si mesmo. A segunda é o erro de amostragem: cada geração é um conjunto finito de amostras, e eventos raros têm probabilidade proporcionalmente alta de simplesmente não aparecerem — e o que não aparece, não é reaprendido. Perde-se a cauda, some a variância, a diversidade colapsa.
Mas repare na condição que faz o argumento funcionar: o loop fechado e não curado, geração substituindo dado real, sem filtro e sem injeção de sinal novo. Esse é o cenário de laboratório que produz o colapso limpo. Não é o cenário de quem trabalha com competência. Quando você mistura dado sintético com dado humano preservado, quando filtra agressivamente por qualidade, quando adiciona verificação externa, o colapso deixa de ser destino e vira risco a gerenciar. A degeneração não é uma lei da termodinâmica dos modelos. É a consequência específica de reciclar sem curar.
Curadoria é a variável que decide tudo
Aqui está a tese central: dado sintético não é bom nem ruim por ser sintético. Ele é tão bom quanto o processo de seleção que o cerca. Gerar é a parte barata e quase trivial. Decidir o que jogar fora é onde mora o valor.
Curar significa filtrar por qualidade antes que o lixo entre no treino — e um modelo gera lixo com a mesma fluência com que gera acerto. Significa deduplicar, porque geração em massa produz enxames de exemplos quase idênticos que enviesam o treino para o centro e aceleram exatamente a perda de cauda que causa colapso. Significa manter diversidade de forma deliberada, variando prompts, temperaturas, personas e formatos, em vez de amostrar mil vezes a mesma região do espaço. E significa preservar uma âncora de dado humano real, o lastro que impede o modelo de derivar para longe da distribuição que importa.
O erro mais comum de quem começa é confundir volume com valor. Gerar dez milhões de exemplos é uma tarde de trabalho e um custo de inferência. Gerar dez milhões de exemplos úteis, diversos e corretos é um problema de engenharia de dados que a maioria subestima. A curadoria não é a etapa chata depois da geração. É a etapa que produz o resultado.
A verificação é o que separa reforço de alucinação
Se curadoria é a variável, verificação é o mecanismo que a torna confiável — e é onde a distinção fica técnica de verdade.
Existe um abismo entre gerar dado num domínio verificável e num domínio não verificável. Código roda e passa em testes, ou não passa. Matemática confere contra a resposta, uma prova é válida ou tem furo. Nesses casos o modelo pode gerar em profusão, e um verificador — que pode ser um compilador, um conjunto de testes, um provador — separa o correto do incorreto sem opinião. O dado que sobra é confiável por construção, e treinar nele efetivamente melhora o modelo. Não por acaso os avanços mais sólidos com dados sintéticos vêm justamente desses domínios: existe chão para o sinal pisar.
Em domínios sem verificador objetivo — julgamento de qualidade de escrita, correção factual sobre o mundo aberto, nuance de tom — o buraco aparece. O que costuma preencher esse vazio é outro modelo atuando como juiz. E aqui a armadilha é elegante: se o gerador e o avaliador compartilham o mesmo viés, você construiu uma câmara de eco que se auto-aprova. O modelo gera o que acha bom, outro modelo com os mesmos vieses confirma que é bom, e o erro sistemático é reforçado como se fosse verdade. A verificação que não é independente da geração não verifica nada — apenas lava o viés e o devolve com selo de aprovado.
Por isso a verificação de valor é a que traz sinal externo: um oráculo checável, um humano no circuito nos pontos críticos, uma fonte de verdade que não saiu do mesmo modelo que gerou o dado. Sem isso, você não está reforçando conhecimento. Está amplificando a confiança do modelo nas próprias suposições, o que é a definição operacional de fabricar alucinação em escala industrial.
Minha posição
Dado sintético é hoje uma necessidade estrutural, não uma preferência estética — a matemática da escassez não deixa alternativa, e fingir o contrário é ingenuidade. Mas o discurso público oscila entre dois erros que se anulam: o entusiasta que trata geração como dado grátis e infinito, e o catastrofista que decreta o colapso inevitável e o fim do progresso. Os dois erram pela mesma razão: ignoram que a variável decisiva não é a origem do dado, e sim o rigor do processo que o cerca.
O colapso é real, e é o destino garantido de quem recicla saída em loop fechado sem curar. Mas é perfeitamente evitável por quem entende que gerar é barato, curar é caro e verificar é o que separa treino de autoengano. A vantagem competitiva da próxima fase não vai para quem gera mais dado sintético. Vai para quem construiu os melhores verificadores, os filtros mais implacáveis e a disciplina de nunca fechar o loop sem sinal externo entrando. Dado sintético premia a competência e pune a preguiça — e essa, no fim, é a melhor notícia que a escassez de dados humanos podia nos trazer.