Estudo de pesquisadores de Stanford mostra que detectores de texto gerado por Inteligência Artificial tem viés que prejudica falantes não-nativos de inglês

“(…) os benefícios e os déficits de uma nova tecnologia não são igualmente distribuídos. Existem, como existiram, vencedores e perdedores.” – Neil Postman, Technopoly.

“(…) nós não precisamos sempre seguir na direção que certa tecnologia nos levaria. Nós temos responsabilidades conosco e com nossas instituições que superam nossas responsabilidades com o potencial da tecnologia.” – Neil Postman, Building a bridge to 18th century.

Com a popularização dos LLMs (Large-Language Models), como o ChatGPT da OpenAI e o Bard da Google, geradores automáticos de textos seguindo instruções dadas por usuários ficaram ao alcance de uma maior parcela da população mundial.

A decisão de muitas universidades pelo mundo foi adicionar um software detector de textos gerados por IA ao arsenal já existente de softwares de identificação de plágio. Após relatos de diversos estudantes que foram vítimas de falso-positivos, pesquisadores da Universidade de Stanford realizaram um estudo e chegaram a conclusão de que estudantes imigrantes que não tem o inglês como primeira língua são as principais vítimas dos erros dessa nova linha de softwares. Essas falsas acusações acabam gerando impacto negativo na vida escolar e pessoal desses estudantes, que ficam com o ônus de provar a própria inocência.

A hipótese dos pesquisadores é de que, como o texto gerado por LLMs como o ChatGPT tende a ter uma variedade menor de vocabulário, essas IAs aprendem que um texto mais simples pode ter sido gerado com ajuda de IA e avisam os professores sobre a “fraude”. Essa vinculação acabaria atingindo estudantes que não tem o inglês como primeira língua porque geralmente eles tem um conhecimento mais limitado da gramática e do vocabulário da língua, escrevendo textos menos rebuscados que seus colegas falantes nativos do idioma.

Algumas universidades já começaram a proibir o uso desses softwares de detecção de textos gerados por IA, mas por motivos menos nobres: temem a propaganda negativa gerada pelos falso-positivos e os possíveis processos por parte dos estudantes falsamente marcados como fraudadores.

Leia mais: https://themarkup.org/machine-learning/2023/08/14/ai-detection-tools-falsely-accuse-international-students-of-cheating

Discuss...