A inteligência artificial generativa (Gen-AI) é uma forma relativamente nova de IA que, ao contrário das suas antecessoras, pode criar conteúdos por extrapolação a partir de padrões identificados em dados de treino. A sua extraordinária capacidade de produzir escrita, imagens, áudio e vídeo semelhantes aos produzidos por humanos captou a imaginação do mundo desde que o primeiro robô de conversação (ou chatbot) com utilização de IA generativa foi lançado ao público no outono de 2022.
Um relatório de junho de 2023 da McKinsey & Company estimou que a Gen-AI generativa tem o potencial de adicionar entre 6,1 e 7,9 biliões de dólares americanos à economia global, principalmente por aumentar a produtividade das empresas. Mas, segundo a terceira lei de Newton, cada ação tem uma reação de igual intensidade e de sentido oposto. Assim, a IA generativa traz riscos potenciais para a economia: como a possibilidade de errar, as violações de privacidade e de propriedade intelectual, bem como a capacidade de perturbação económica e social em grande escala. Por exemplo, é improvável que os benefícios de produtividade da Gen-AI se concretizem sem esforços substanciais de requalificação dos trabalhadores. Nos próximos anos, muitas empresas vão treinar os seus próprios modelos de Gen-AI.
A IA generativa é o nome dado a um conjunto de tecnologias de aprendizagem automática que recentemente desenvolveram a capacidade de criar conteúdos em resposta a solicitações (conhecidas como prompts), que podem variar de curtas e simples a muito longas e complexas. Diferentes ferramentas de IA generativas podem produzir novos conteúdos de áudio, imagem e vídeo, mas é a IA orientada a texto que fez disparar a imaginação. Com efeito, pode-se conversar e aprender com modelos de IA generativos tal como se faz com os seres humanos.
Este tipo de IA tomou o mundo de rompante nos meses após o ChatGPT, um chatbot baseado no modelo de rede neural GPT-3.5 da OpenAI, lançado a 30 de novembro de 2022. GPT significa transformador generativo pré-treinado, palavras que descrevem principalmente a arquitetura de rede neural subjacente ao modelo.
Há muitos casos anteriores de chatbots de conversação, começando com o ELIZA do Instituto de Tecnologia de Massachusetts em meados da década de 1960. Mas a maioria dos chatbots anteriores, incluindo o ELIZA, eram inteiramente ou em grande parte baseados em regras, sem compreensão contextual. Em contraste, os modelos generativos de IA não incluem regras ou modelos predefinidos.
Metaforicamente, comportam-se como cérebros primitivos e em branco que são expostos ao mundo por treino com dados reais. Assim, desenvolvem um modelo representativo de como esse mundo funciona, que usam para gerar conteúdo novo em resposta às solicitações. Mesmo os especialistas em IA não sabem exatamente como isto acontece, pois,as redes neuronais são algoritmos muito flexíveis que, tal como o barro, se adaptam a muitos padrões identificados nos dados de aprendizagem.
A inteligência artificial é uma vasta área da ciência da computação, da qual a Gen-AI é um pequeno subconjunto, pelo menos para já. Naturalmente, a IA generativa compartilha muitos atributos em comum com a IA tradicional. Mas também há algumas distinções importantes.
Por exemplo, ambas dependem de grandes quantidades de dados para treino e tomada de decisão, aprendem padrões dos dados e usam esse “conhecimento” para fazer previsões e adaptar o seu próprio comportamento. Opcionalmente, ambas podem ser melhoradas ao longo do tempo, ajustando os seus parâmetros com base em feedback ou novas informações.
Por outro lado, os algoritmos tradicionais de IA geralmente são projetados para executar uma tarefa específica melhor ou a um custo menor do que um ser humano, como detetar fraudes em cartões de crédito, determinar percursos em estradas ou conduzirum carro autónomo.
A Gen-AI é mais ampla, já que cria conteúdo novo e original que se assemelha, mas não é igual, aos dados de treino. Além disso, os sistemas tradicionais de IA, como sistemas de aprendizagem automática, são treinados principalmente em dados específicos para a função pretendida, enquanto os modelos de IA generativos são treinados em conjuntos de dados muito grandes e diversos.
Outra diferença que vale a pena mencionar é que o treino dos modelos base para a IA generativa é “obscenamente caro”. Por exemplo, a OpenAI usou 100 milhões de dólares americanos apenas para o hardware necessário para começar e outro tanto para pagar serviços na nuvem, onde a maioria do desenvolvimento é feita. Há ainda o custo dos monumentalmente grandes volumes de dados necessários.
Há duas respostas para a questão de saber como funcionam os modelos de Gen-AI. Empiricamente, sabemos como funcionam em pormenor, porque os seres humanos conceberam as várias implementações de redes neuronais para o fazerem, iterando essas conceções ao longo de décadas para as tornar cada vez melhores. No entanto, na prática, esta tecnologia é pouco transparente e os humanos não conseguem perceber os padrões capturados nos modelos.
Uma boa metáfora visual para uma rede neuronal é imaginar a conhecida folha de cálculo, mas em três dimensões, porque os neurónios artificiais estão empilhados em camadas, à semelhança do que acontece com os neurónios reais no cérebro. Por vezes chama-se a cada neurónio uma “célula”. Cada célula contém uma fórmula que a relaciona com outras células da rede, imitando a forma como se estabelecem as ligações entre os neurónios do cérebro.
Cada camada pode ter dezenas, centenas ou milhares de neurónios artificiais. No entanto, a medida usada para a dimensão do modelo é o número de ligações entre os neurónios. A força destas ligações varia com base em valores usados nas equações das células, que são geralmente designados por “pesos” ou “parâmetros”.
Por exemplo, certamente já leu que o modelo GPT-3 tem 175 mil milhões de parâmetros, referindo-se ao número de ligações. A versão mais recente, GPT-4, tem 1,76 biliões de parâmetros. Existem várias arquiteturas de redes neuronais com características diferentes que se prestam à produção de diferentes conteúdos; a arquitetura transformadora parece ser a melhor para modelos de linguagem de grande dimensão, por exemplo.
Na verdade, estes algoritmos apenas trabalham com valores numéricos, pelo que as palavras são convertidas em códigos, conhecidos por tokens. Uma palavra comum pode ter o seu próprio token, palavras invulgares seriam certamente compostas por múltiplos tokens. Para fazer cada previsão, o modelo introduz uma sequência de tokens na camada de entrada de uma determinada pilha de neurónios artificiais. Essa camada processa-o e transmite o resultado à camada seguinte, que processa e transmite novamente o resultado e assim sucessivamente até que o resultado emerge na camada de saída.
Os modelos base são treinados de forma não supervisionada, mas são posteriormente afinados com aprendizagem supervisionada. Nesta segunda fase, de afinação, o modelo prevê um token e verifica se está correto em relação aos dados de treino. Quer esteja certo ou errado, um algoritmo de “retropropagação” ajusta os parâmetros, ou seja, os pesos das fórmulas, em cada célula da camada que fez essa previsão. O objetivo dos ajustes é tornar mais provável a previsão correta. Por exemplo, uma resposta dá 30%, esta é escolhida se este valor foro maior de todos as outras respostas possíveis, igualmente previstas pela rede. Assim, a retropropagação procura aumentar os 30% e baixar o valor de todas as restantes respostas.
Depois do algoritmo ter repetido este processo para biliões de tokens de texto, torna-se muito bom a prever o próximo token, ou palavra. Após este treino, os modelos de Gen-AI podem ainda ser aperfeiçoados usando aprendizagem por reforço a partir de feedback humano (RLHF). Na RLHF, o resultado do modelo é dado a revisores humanos que fazem uma avaliação binária positiva ou negativa que é usada, novamente, para retropropagação atualizar os pesos.
O RLHF foi utilizado para afinar os últimos modelos GPT da OpenAIe ajudar a criar o chatbot ChatGPT, que se tornou viral.
Fontes:
Para mais informações e para acesso aos artigos consultados, use os QR code na ilustração.
Armando B. Mendes