Edit Template

Os perigos dos genAI

Antes da Cimeira de Segurança da IA (Inteligência Artificial) do Reino Unido, equipas de estudantes e especialistas juntaram-se num esforço concertado para enganar, contornar, confundir ou derrotar as barreiras de segurança em torno do Llama 2, o LLM (Large Language Model – modelo de linguagem de grande dimensão) de código aberto da Meta, de forma a identificar vieses discriminatórios ou preconceitos, por exemplo.
O evento, organizado pela Royal Society e pela Humane Intelligence, uma organização sem fins lucrativos que defende a segurança da IA, foi um desafio de “red teaming”. Este tipo de desafios pretende sondar os sistemas de IA de forma inteligente para revelar comportamentos de risco e preconceitos que os seus criadores possam não ter identificado. Recorre a equipas com diferentes perspetivas, incluindo a segurança, a ética, a sociologia e a psicologia, e utiliza, ou complementa, técnicas como a adversarial IA, a inversão de modelos, o envenenamento de dados, a aprendizagem por reforço com feedback humano (RLHF Reinforcement Learning with Human Feedback) e o envolvimento de especialistas na descoberta de anomalias.
A formação deste tipo de equipas está bem estabelecida em áreas como a cibersegurança e os sistemas financeiros, mas é bastante nova na IA, embora exista um precedente. A Humane Intelligence ajudou a organizar um desafio semelhante na DEFCON, no verão. O desafio, que teve a bênção da Casa Branca e a participação de empresas de IA proeminentes como a OpenAI, a Google e a Anthropic, envolveu 2200 pessoas que participaram em 17 000 conversas com 160 000 mensagens individuais.
Os resultados ainda estão a ser processados, mas já é possível tirar algumas conclusões. Uma das principais refere-se à dificuldade em traçar uma linha clara entre diferentes tipos de problemas como: danos incorporados, injeções rápidas por agentes maliciosos e consequências não intencionais.
Uma das técnicas com melhores resultados para avaliar a segurança e ética dos LLM é a adversarial IA. Esta técnica envolve o uso de algoritmos de aprendizagem automática e de análise preditiva para detetar padrões e comportamentos pouco éticos dos LLM. Esta técnica tem a vantagem de detetar este tipo de erros ou desvios de forma proativa, reduzindo o tempo de resposta e correção.
Outra técnica é a model inversion ou inversão do modelo. Esta é uma técnica que envolve reverter o processo de treino para obter informações sobre os dados. Quando um modelo de IA é treinado, ele aprende a fazer corresponder a determinadas entradas (por exemplo, uma pergunta) às respetivas saídas (por exemplo, a resposta correspondente). O treino mais não é do que ajustar os parâmetros do modelo para que as perguntas correspondam às respostas corretas. A técnica de model inversion explora a vulnerabilidade dos modelos treinados, nomeadamente usando consultas ao modelo para reconstruir informações confidenciais sobre os dados de treino. Por exemplo, ao inverter o modelo podem ser reveladas informações sobre grupos minoritários, indicando claramente um viés discriminatório.
No que se refere ao data poisoning ou envenenamento de dados é uma técnica maliciosa que envolve a inserção intencional de dados corrompidos, errados ou maliciosos no conjunto de dados de treino de um modelo de aprendizagem automática, como os LLM. Essa prática visa distorcer o processo de aprendizagem do modelo. Mesmo pequenas alterações nos dados de treino podem afetar significativamente as decisões e previsões do modelo. Ao alterar subtilmente os padrões estatísticos nos dados de treino, é possível identificar vieses ou resultados imprecisos nos LLM.
Finalmente, a técnica Aprendizagem por Reforço com Feedback Humano (RLHF) é uma técnica avançada para treinar sistemas de IA que envolve treinar um “modelo de recompensa” de aprendizagem por reforço com feedback humano direto. O RLHF é especialmente útil para tarefas com objetivos complexos, mal definidos ou difíceis de especificar matematicamente, como é o caso da identificação de vieses discriminatórios e tendenciosos. O RLHF permite que os LLMs se alinhem melhor com os valores humanos e gerem saídas de melhor qualidade.
Ao contrário dos motores de busca desapaixonados, exceto no que se refere à colocação de anúncios, os chatbots baseados em LLM, como o ChatGPT, Bard e Claude, têm como objetivo agradar. Recebem informações pelas prompts ou questões que lhe são colocadas e utilizam-nas para aperfeiçoar as respostas, adaptando-as subtilmente ao que pensam que o utilizador quer ouvir, produzindo aquilo a que se chama “informação na forma de verdade”.
Por exemplo, uma pessoa que queira saber se a vitamina C pode curar a Covid-19 pode pôr essa informação num motor de busca e ser-lhe-á apresentada, de forma determinística, uma lista de artigos para escolher. No entanto, se, numa conversa com um chatbot, essa pessoa revelasse primeiro que não tinha tomado a vacina devido a dúvidas sobre a eficácia da mesma e depois perguntasse se a vitamina C podia curar a Covid, provavelmente receberia uma resposta que confirmava subtilmente as suas crenças.
Este exemplo específico é bem conhecido e a maioria dos modelos tem salvaguardas para o contrariar, mas há muitas variações subtis deste tema. Existem também muitos outros problemas potenciais, incorporados nos dados de treino, introduzidos por agentes maliciosos ou que decorrem simplesmente da utilização dos LLM. E embora os investigadores consigam detetar alguns, pelo menos dentro de um âmbito definido, detetar problemas deste tipo de forma generalizada é um enorme desafio, especialmente complexo pela quase total ausência de normas para a auditoria de modelos linguísticos de grande dimensão.
Não existem absolutamente nenhumas normas ou padrões de como devem ser as proteções da IA generativa porque os modelos são muito diferentes na sua natureza. São muito difíceis, se não mesmo impossíveis, de auditar e avaliar. É por isso que a equipa vermelha é algo que se tem tentado construir, e especificamente para trazer um feedback público estruturado.
Para o fazer, é necessário o contributo de populações cuja sub-representação conduz a preconceitos bem conhecidos, como são exemplos bem documentados: pessoas negras que são desproporcionadamente mal diagnosticadas por algoritmos de IA para diagnósticos médicos ou excluídas de tratamentos; mulheres que são desmarcadas por sistemas automatizados de recursos humanos para empregos nas tecnologias de informação; e discriminação contra minorias sexuais e grupos religiosos.
Por vezes, os danos devem-se a dados de treino enviesados, outras vezes resultam de peculiaridades dos próprios modelos e, por vezes, acontecem porque foi escolhida uma estrutura de modelo errado para uma determinada tarefa. Independentemente da causa, estes efeitos adversos significam que a IA já está a ter um impacto negativo na qualidade de vida, em vez de positivo, de um número significativo de pessoas.
Como parte de um esforço concertado de transparência, a formação de equipas vermelhas (red teams) pode ajudar os investigadores e os utilizadores destes modelos a compreender e a contrariar os comportamentos algorítmicos perigosos antes de estes ocorrerem. Em vez de lançar modelos no mundo e só mais tarde tentar captar as externalidades negativas, estas metodologias preconizam que o público deve fazer parte da conversa desde o início.
Para estas equipas são necessárias pessoas que tenham a experiência de falar uma língua não maioritária, de crescer com um pai solteiro ou de crescer com pais do mesmo sexo para compreender como estes modelos podem falar sobre a sua experiência de vida e para se saber se isso está a ser feito corretamente.

Fontes:
Para mais informações e para acesso aos artigos consultados, use o QR code na ilustração.

Ilustração criada pelo AI Photo Generator usando como prompt o título do artigo, em inglês. Use o QR code na imagem para o URL.

Armando B. Mendes

Edit Template
Notícias Recentes
Essentia Azorica apresenta óleos essenciaisna AçoresBIO-2024 mediante visitaà destilaria e à plantação biológica
GNR apreendeu 580 quilos de pescado na ilha do Pico
Homem detido na Maia por suspeita de incêndio em edifício
Açores têm feito esforços para “corresponder às expectativas” de quem escolhe a Região para viver, realça Paulo Estêvão
Primeira edição do ‘Azores Comedy Fest’ leva o melhor da comédia regional ao Teatro Angrense
Notícia Anterior
Proxima Notícia
Copyright 2023 Correio dos Açores