Inteligência artificial pode revitalizar línguas indígenas no Brasil
Entre soberania digital e riscos de distorção, o caso do Nheengatu expõe desafios éticos e tecnológicos na preservação de culturas originárias
O Projeto Nheengatu Digital é uma iniciativa que reúne a USP, a IBM Research e comunidades tradicionais com o objetivo de revitalizar idiomas indígenas por meio da inteligência artificial. Numa série de reportagens especiais da Rádio USP (que podem ser acessadas aqui), o professor Claudio Pinhanez, vice-diretor do Centro de Inteligência Artificial (C4AI) da USP e coordenador do projeto, apresenta os desafios técnicos e éticos envolvidos nesse processo, passando pelas complexidades gramaticais da língua Nheengatu — que dificultam a tradução automática — e pelo risco de que sistemas de IA reproduzam visões coloniais, preconceitos ou distorções sobre a realidade indígena.
Um dos pontos centrais da entrevista é a discussão sobre como avaliar a qualidade dessas traduções em contextos com poucos recursos digitais. Pinhanez explica a necessidade de criar métricas que levem em conta o julgamento humano e não apenas critérios estatísticos, além de abordar o problema das chamadas “alucinações” da inteligência artificial — quando sistemas inventam respostas plausíveis, mas incorretas. Para enfrentar esse desafio, o projeto envolve não só pesquisadores, mas também as próprias comunidades indígenas, que participam ativamente do desenvolvimento das ferramentas.
A conversa avança para uma reflexão sobre o que o pesquisador define como “dados culturalmente tóxicos” e os riscos de treinar modelos com conteúdos que carregam vieses históricos. Nesse contexto, ganha destaque a questão da propriedade dos dados e da autonomia das comunidades, que buscam garantir controle sobre suas línguas e conhecimentos, inclusive por meio da criação de infraestruturas digitais locais.
A ideia de soberania digital aparece, então, como um eixo fundamental do projeto. Pinhanez descreve como o Nheengatu Digital procura fortalecer a autossuficiência tecnológica das comunidades indígenas, permitindo que elas não apenas utilizem, mas também desenvolvam e mantenham as próprias ferramentas de inteligência artificial.
O pesquisador antecipa os próximos passos da iniciativa, incluindo a expansão para novas etnias a partir de 2026 e o trabalho com comunidades do Alto Rio Negro, no Amazonas. Ele destaca ainda a importância de manter o software em código aberto, como forma de possibilitar que outros povos desenvolvam as próprias soluções, mesmo em contextos com pouca disponibilidade de material escrito — reduzindo, assim, a dependência de tecnologias externas e ampliando o alcance da preservação linguística.
Aldeia digital
Ao observar que a IA generativa é baseada em modelos de linguagem alimentados por Big Data — em grande parte formado por dados estrangeiros —, é possível frisar que o Brasil ainda carece de modelos robustos para o português, apesar de iniciativas nacionais como Sabiá e Maritaca. Pinhanez explica que o C4AI da USP nasceu com diferentes frentes de pesquisa e que uma delas já é dedicada ao português, como no caso da base de dados Carolina. Conforme ele diz, o principal obstáculo sempre foi a infraestrutura limitada para treinar modelos de grande porte. Apenas recentemente a USP passou a contar com uma máquina equipada com 96 GPUs, o que deve permitir avanços mais significativos nessa área.
Ao mesmo tempo, o pesquisador argumenta que trabalhar com línguas indígenas também significa olhar para a própria formação cultural e linguística brasileira. Ele lembra que o português falado no Brasil incorporou inúmeras palavras de línguas originárias, especialmente do Guarani. Ainda assim, faltam dados suficientes para construir modelos indígenas mais completos. Por isso, a estratégia inicial foi criar ferramentas digitais úteis às próprias comunidades, incentivando a escrita e ampliando gradualmente a produção de dados linguísticos.
O pesquisador destaca que a colaboração técnica com os povos indígenas é feita com forte preocupação em relação à proteção dos dados. Ele cita como exemplo a possibilidade de uma comunidade Kaingang desenvolver o próprio tradutor automático utilizando ferramentas abertas disponibilizadas pelo grupo de pesquisa. Nesse modelo, o código é aberto, mas os dados pertencem à comunidade e permanecem protegidos. “Temos um cuidado imenso com a proteção da língua”, afirma.
Para Pinhanez, a criação de modelos brasileiros de inteligência artificial deveria ser prioridade nacional justamente porque essas tecnologias não lidam apenas com tradução literal, mas com formas específicas de compreender o mundo. Ele relata ter utilizado uma IA estrangeira para listar cidades brasileiras com mais de cinco milhões de habitantes e recebido respostas equivocadas porque o sistema interpretou incorretamente a vírgula utilizada na representação decimal brasileira. O exemplo, conforme diz, revela como as limitações desses modelos estão enraizadas em diferenças culturais aparentemente básicas.
Essa discussão leva o pesquisador a defender uma política de “dados para o bem comum”. Em sua avaliação, o treinamento de sistemas de inteligência artificial muitas vezes ocorreu como um processo de extração indiscriminada de informações produzidas coletivamente pela sociedade. Inspirado também em perspectivas indígenas sobre coletividade, Pinhanez argumenta que os dados não devem ser tratados apenas como propriedade individual, mas como patrimônio comunitário. Assim, empresas que utilizam informações produzidas socialmente deveriam devolver benefícios concretos à coletividade.
O objetivo mais amplo do projeto é promover aquilo que Pinhanez chama de “aldeamento digital da internet”: a criação de espaços digitais ocupados pelas próprias comunidades indígenas, nos quais língua e cultura possam existir de forma autônoma dentro da rede. A proposta inclui estimular jovens indígenas a desenvolverem os próprios nichos de trabalho e produção tecnológica. Para o pesquisador, as ferramentas de IA tornaram a programação mais acessível e podem ampliar significativamente a participação dessas populações na construção do ambiente digital.
Os próximos passos, porém, ainda dependem de infraestrutura adequada. Pinhanez explica que o trabalho presencial nas terras indígenas envolve altos custos e diversas autorizações institucionais, como as da Funai. Por isso, ele acredita que ampliar as possibilidades de trabalho remoto e garantir recursos de treinamento serão fatores fundamentais para consolidar uma internet construída “por eles mesmos” e capaz de refletir as culturas indígenas brasileiras.
Texto: Magaly Prado | Jornal da USP.






