Usamos IA no nosso dia-a-dia, mas sem nenhuma certeza de estarmos livres de riscos. IA já é uma realidade, enquanto o entendimento de seu alcance e efeitos colaterais ainda é bastante obscuro. Um dos pontos que trazem preocupação é o quanto ela pode ser "desviada" da realidade a partir da leitura do universo de textos que a alimentou. Sem métricas ou curadoria do que ela recebe, o resultado produzido pode estar errado. Um antigo axioma na área de computação reza: "garbage in, garbage out", se o que entra é lixo, o que sairá também será...
Uma das formas de limitar esse risco é fazer com que a IA trabalhe num domínio restrito e controlado. Se fornecermos a ela uma base de dados pré-definida como "fonte de informação", a possibilidade de "alucinações" é praticamente eliminada. Claro que a riqueza das respostas também será penalizada, visto que, neste caso, o universo que a IA recebe como "entrada" é controlado e limitado. Numa IA que trabalhe localmente em nosso computador, sem acesso amplo, via internet, a mais dados, o efeito é também parecido.
O cenário tende a ficar ainda mais complexo com os novos "agentes de IA" e seu poder quasi humano de ação e interação e ação. Num artigo deste mes da Sophos, empresa que trabalha com segurança computacional e IA, são discutidos riscos que os agentes podem trazer, e propostas formas de amenizá-los. Afinal, um agente poderia receber uma "ordem" maliciosamente camuflada no meio dos dados que o alimentam. Uma providência seria buscar circunscrever o raio de ação de um agente, e assim quantificar potenciais riscos que ele traria. Há uma tríade que compõe o funcionamento de um agente. Os componentes dessa tríade são comuns em computação, mas apenas na IA "agêntica" eles coexistem integrados. São: 1- o amplo acesso a conteúdo mundial, eventualmente não confiável; 2- o acesso local a dados sensíveis, privados, da empresa que instalou o agente, e 3- a capacidade de iniciativa e ação que foi delegada ao agente, desde o envio de mensagens em nome da empresa, até alterar recursos e procedimentos internos.
Na busca de reduzir o possível raio de estragos, uma das sugestões é empregar o chamado "sandboxing", recurso bastante em voga hoje em dia para, criando um ambiente controlado, podermos "testar" novidades, sejam tecnológicas, regulatórias ou legais. Num "sandbox", por exemplo, onde o agente poderia receber dados e sugerir ações livremente, mas sua capacidade de acesso a bases privadas, e sua liberdade de ação seriam limitadas e controladas. Outra forma de diminuir os riscos é definir áreas específicas para a ação do agente: numa empresa, se o agente trabalhar na área financeira, não acessaria dados da área administrativa, ou da área jurídica. Uma terceira opção seria a de "agentes temporários", que ganham uma tarefa bem definida e, ao final dela, são desativados.O artigo da Sophos:
https://www.sophos.com/en-us/blog/inside-the-lethal-trifecta-blast-radius-reduction-in-ai-agent-deployments
trecho:
"Operating Inside The Lethal Trifecta: Blast Radius Reduction In AI Agent Deployments AI agents that can read files, call APIs, and perform actions are already being deployed in enterprises. These agents often operate in the center of what Simon Willison terms ‘the lethal trifecta’: they can access private data, process untrusted content, and communicate externally, making them susceptible to data theft via indirect prompt injection – where an attacker plants instructions in content that the agent reads on behalf of a trusted user, such as an email, a web page, or a document. The agent follows the injected instructions with the user's privileges, and the user never sees the attack. The Agents Rule of Two generalizes the concept: an agent should satisfy at most two of a) processing untrusted inputs, b) accessing sensitive systems, and c) changing state externally."
===
Frase de Nietzsche sobre "crianças e obras", em Assim Falava Zaratustra
"Que ninguém ama de todo o coração senão o seu filho e a sua obra; e onde há um grande amor de si mesmo, é sinal de fecundidade: eis o que tenho notado.",


Nenhum comentário:
Postar um comentário