Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
A maioria das pessoas interessadas em IA generativa provavelmente já sabe que os grandes modelos de idiomas (LLMs) – como os por trás do ChatGPT, Claude do Anthropic e Gêmeos do Google – são treinados em conjuntos de dados maciços: trilhões de palavras retiradas de sites, livros, bacias de código e, cada vez mais, outras mídias como imagens, áudio e vídeo. Mas por que?
A partir desses dados, o LLMS desenvolve uma compreensão estatística e generalizada da linguagem, seus padrões e o mundo – codificada na forma de bilhões de parâmetros, ou “configurações”, em uma rede de neurônios artificiais (que são funções matemáticas que transformam dados de entrada em sinais de saída).
Ao ser exposto a todos esses dados de treinamento, os LLMs aprendem a detectar e generalizar padrões refletidos nos parâmetros de seus neurônios. Por exemplo, a palavra “maçã” geralmente aparece nos termos próximos relacionados a alimentos, frutas ou árvores e, às vezes, computadores. O modelo capta que as maçãs podem ser vermelhas, verdes ou amarelas ou, às vezes, outras cores, se podre ou raras, são escritos em “maçã” em inglês e são comestíveis. Esse conhecimento estatístico influencia como o modelo responde quando um usuário insere um aviso – moldando a saída que gera com base nas associações que “aprendeu” com os dados de treinamento.
Mas uma grande questão – mesmo entre os pesquisadores da IA - permanece: o quanto os dados de treinamento de um LLM são usados para construir generalizado representações de conceitos e quanto é memorizado literalmente ou armazenado de uma maneira idêntica ou quase idêntica aos dados originais?
Isso é importante não apenas para entender melhor como os LLMs operam – e quando eles dão errado -, mas também como os provedores de modelos se defendem em ações de violação de direitos autorais, trazidas por criadores e proprietários de dados, como artistas e gravadoras. Se os LLMs forem mostrados para reproduzir partes significativas de seus dados de treinamento literalmente, os tribunais poderiam ser mais propensos a apoiar os demandantes argumentando que os modelos copiam ilegalmente o material protegido. Caso contrário, se os modelos gerarem saídas com base em padrões generalizados, em vez da replicação exata – os desenvolvedores poderão continuar raspando e treinamento em dados protegidos por direitos autorais sob defesas legais existentes, como uso justo.
Agora, finalmente temos uma resposta para a pergunta de quanto LLMS memoriza versus generalizar: Um novo estudo divulgado esta semana De pesquisadores da Meta, Google Deepmind, Cornell University e Nvidia descobrem que Os modelos no estilo GPT têm uma capacidade de memorização fixa de aproximadamente 3,6 bits por parâmetro.
Para entender o que 3,6 bits significa na prática:
- Um único bit é a menor unidade de dados digitais, representando 0 ou 1. Oito bits compõem um byte.
- O armazenamento de 3,6 bits permite aproximadamente 12,13 valores distintos, conforme calculado por 2^3,6.
- Trata-se da quantidade de informações necessárias para escolher uma das 12 opções-semelhante a selecionar um mês do ano ou o resultado de um rolo de um dado de 12 lados.
- Isto não é suficiente para armazenar nem uma carta em inglês (que precisa de cerca de 4,7 bits), Mas é suficiente codificar um caractere de um conjunto reduzido de 10 letras em inglês comuns (que requer cerca de 3,32 bits).
- Em bytes, 3,6 bits são de 0,45 bytes – menos da metade do tamanho de um caractere típico armazenado no ASCII (que usa 8 bits ou 1 byte).
Esse número é independente do modelo dentro de variações arquitetônicas razoáveis: diferentes profundidades, larguras e precisões produziram resultados semelhantes. A estimativa mantida constante entre os tamanhos dos modelos e até os níveis de precisão, com modelos de precisão total atingindo valores um pouco mais altos (até 3,83 bits/parâmetro).
Mais dados de treinamento não levam a mais memorização – de fato, um modelo será menos provável Para memorizar qualquer ponto de dados único
Uma das principais coisas da pesquisa é que os modelos não memorizam mais quando treinados em mais dados. Em vez disso, a capacidade fixa de um modelo é distribuída no conjunto de dados, o que significa que cada ponto de dados individual recebe menos atenção.
Jack Morris, o principal autor, explicado através da rede social x que “o treinamento em mais dados forçará modelos a memorizar menos por amostra”.
Essas descobertas podem ajudar a aliviar as preocupações com grandes modelos memorizando conteúdo protegido por direitos autorais ou sensíveis.
Se a memorização for limitada e diluída em muitos exemplos, a probabilidade de reproduzir qualquer exemplo de treinamento específico diminui. Em essência, mais dados de treinamento levam a um comportamento de generalização mais seguro, não ao aumento do risco.
Como os pesquisadores identificaram essas descobertas
Para quantificar com precisão quanto modelos de linguagem memorizam, os pesquisadores usaram uma abordagem não convencional, mas poderosa: Eles treinaram modelos de transformadores em conjuntos de dados compostos por frutas de bits uniformemente aleatórias. Cada um desses bits foi amostrado de forma independente, garantindo que não existisse padrões, estrutura ou redundância entre exemplos.
Como cada amostra é única e desprovida de recursos compartilhados, qualquer habilidade que o modelo mostra em Reconstruir ou identificar essas seqüências durante a avaliação reflete diretamente a quantidade de informações que ela retida – ou memorizada– Treinamento durante.
A principal razão para essa configuração foi eliminar completamente a possibilidade de generalização. Diferentemente da linguagem natural – que está cheia de estrutura gramatical, sobreposição semântica e conceitos repetidos – dados aleatórios uniformes não contêm essas informações. Todo exemplo é essencialmente ruído, sem nenhuma relação estatística com nenhum outro. Nesse cenário, qualquer desempenho do modelo nos dados de teste deve ocorrer puramente da memorização dos exemplos de treinamento, pois não há padrão de distribuição para generalizar.
Os autores argumentam que seu método é talvez Uma das únicas maneiras de princípios de separar a memorização do aprendizado Na prática, porque quando os LLMs são treinados em linguagem real, mesmo quando eles produzem uma saída que corresponde aos dados de treinamento, é difícil saber se eles memorizaram a entrada ou apenas inferiram a estrutura subjacente dos padrões que observaram.
Este método permite que os pesquisadores mapeem uma relação direta entre o número de parâmetros do modelo e o total de informações armazenadas. Ao aumentar gradualmente o tamanho do modelo e o treinamento de cada variante para a saturação, entre centenas de experimentos em modelos que variam de 500k a 1,5 bilhão de parâmetros, eles observaram resultados consistentes: 3,6 bits memorizados por parâmetroque eles relatam como uma medida fundamental da capacidade de memória LLM.
A equipe aplicou sua metodologia a modelos treinados em conjuntos de dados do mundo real também. Quando treinados em texto, os modelos exibiram um equilíbrio de memorização e generalização.
Os conjuntos de dados menores incentivaram mais memorização, mas à medida que o tamanho do conjunto de dados aumentava, os modelos mudaram para o aprendizado de padrões generalizáveis. Essa transição foi marcada por um fenômeno conhecido como “descendência dupla”, onde o desempenho cai temporariamente antes de melhorar quando a generalização entra em ação.
O estudo também examinou como o modelo de precisão – comparação do treinamento no BFLOAT16 versus Float32 – afeta a capacidade de memorização. Eles observaram um aumento modesto de 3,51 para 3,83 bits por parâmetro ao alternar para precisão completa de 32 bits. No entanto, esse ganho é muito menor que a duplicação dos bits disponíveis, sugeriria, implicando retornos decrescentes de maior precisão.
Dados exclusivos têm maior probabilidade de ser memorizado
O artigo propõe uma lei de escala que relaciona a capacidade e o tamanho do conjunto de dados de um modelo com a eficácia dos ataques de inferência de membros.
Esses ataques tentam determinar se um determinado ponto de dados fazia parte do conjunto de treinamento de um modelo. A pesquisa mostra que esses ataques se tornam não confiáveis à medida que o tamanho do conjunto de dados cresce, apoiando o argumento de que o treinamento em larga escala ajuda a reduzir o risco de privacidade.
Embora o artigo se concentre no comportamento de casos médios, alguns pesquisadores apontaram que certos tipos de dados-como escrita altamente única ou estilizada-podem ainda ser mais suscetíveis à memorização.
Os autores reconhecem essa limitação e enfatizam que seu método foi projetado para caracterizar tendências gerais, em vez de casos de borda.
Movendo -se em direção a uma maior compreensão humana do entendimento do LLM
Ao introduzir uma definição de memorização de princípios e quantificáveis, o estudo fornece aos desenvolvedores e pesquisadores novas ferramentas para avaliar o comportamento dos modelos de linguagem. Isso ajuda não apenas com a transparência do modelo, mas também com a conformidade, a privacidade e os padrões éticos no desenvolvimento da IA. As descobertas sugerem que mais dados-e não menos-podem ser o caminho mais seguro ao treinar modelos de idiomas em larga escala.
Para colocar a memorização total do modelo em perspectiva:
- Um modelo de 500 mil parâmetro pode memorizar aproximadamente 1,8 milhão de bits, ou 225 kb de dados.
- Um modelo de parâmetro de 1,5 bilhão pode conter cerca de 5,4 bilhões de bits, ou 675 megabytes de informações brutas.
- Isso não é comparável ao armazenamento típico de arquivos como imagens (por exemplo, uma imagem não compactada de 3,6 MB é de cerca de 30 milhões de bits), mas é significativa quando distribuída por padrões textuais discretos.
Não sou advogado ou especialista jurídico, mas espero que essa pesquisa fosse citada nos inúmeros processos em andamento entre provedores de IA e criadores de dados/proprietários de direitos.
Créditos Autor