Meio Bit » Ciência » IA: hospitais usam ferramenta de transcrição "alucinada"

IA: hospitais usam ferramenta de transcrição "alucinada"

Pesquisadores descobrem que transcrição por IA do Whisper inventa passagens inteiras, mas hospitais a estão usando mesmo assim

2 anos atrás

O Whisper, ferramenta de Inteligência Artificial (IA) criada para transcrição de áudio, é o pivô da mais nova polêmica envolvendo modelos generativos. Uma investigação da agência Associated Press (AP), que entrevistou mais de uma dúzia de profissionais da área, entre engenheiros de software, desenvolvedores e pesquisadores, revelou que a ferramenta não é tão robusta quanto a OpenAI diz ser.

Em média, o algoritmo tende a "alucinar" (inventar resultados) em trechos de silêncio no áudio original, preenchendo-os com passagens aleatórias. O problema, o Whisper é hoje largamente usado por hospitais, para transcrever o que é dito durante consultas.

Whisper tende a preencher silêncio com sentenças tiradas do éter em 80% das transcrições, segundo pesquisadores (Crédito: Stable Diffusion/Ronaldo Gogoni/Meio Bit)

Whisper tende a preencher silêncio com sentenças tiradas do éter em 80% das transcrições, segundo pesquisadores (Crédito: Stable Diffusion/Ronaldo Gogoni/Meio Bit)

IA preenche silêncio com frases inventadas

Desenvolvido pela OpenAI, o Whisper é um sistema de reconhecimento de fala automático (ASR) que usa aprendizado de máquina para converter conversas de áudio em texto, sendo capaz de reconhecer diversos idiomas e, consequentemente, também pode traduzir diálogos para textos em outras línguas.

O Whisper é um software de código aberto, qualquer um pode baixar seus recursos e usá-lo localmente, o que lhe permitiu ser refinado pela comunidade e empregado em uma série de cenários. Transcrever áudio sempre foi um trabalho hercúleo, cansativo, repetitivo e chato, mas hoje, se tornou algo trivial.

Quer dizer, no melhor dos cenários. Quando introduzido em 2022, a OpenAI garantiu que o modelo alcançou "robustez no nível humano", seria capaz de entregar textos transcritos com a mesma precisão de um profissional fazendo tudo manualmente, mas segundo um pesquisador da Universidade de Michigan, entrevistado pela AP, o software tende a "confabular" (o termo acadêmico para "alucinar") em 80% das transcrições, inserindo passagens que não estão presentes no áudio original.

Os problemas surgem quando o áudio usado como fonte para transcrição apresenta momentos de silêncio, quando ninguém está falando nada. O algoritmo do Whisper, notadamente não esperto o bastante para entender que quando isso acontece, ele não tem que fazer nada, gera passagens para "preencher as lacunas", que inclusive revelam que tipo de material a OpenAI usou para treinar a rede especialista: vídeos de YouTubers.

Oficialmente, a empresa de Sam Altman diz que o software foi treinado com "mais de 680 mil horas de dados" coletados na internet, em diversas línguas, o que tem sua própria cota de problemas.

Dá para rodar o Whisper no navegador, inclusive (Crédito: Carlos Cardoso/Meio Bit) / ia

Dá para rodar o Whisper no navegador, inclusive (Crédito: Carlos Cardoso/Meio Bit)

Além de "confabular", algoritmos de transcrição também podem "sobreajustar" (overfitting), um fenômeno previsto em Estatística, que ocorre quando o modelo adere aos dados usados como base, mas falha em interpretar os novos. Quando isso acontece, por exemplo, com trechos de conversa que o Whisper não consegue decifrar (seja pela má qualidade do áudio, ou outros fatores), ele vai substituir o trecho por uma passagem em texto que ele acha ser a certa, mas pode não ser.

Pesquisadores também notaram que o Whisper, que entende contexto até certo ponto, e tenta preencher lacunas com o que ele presume ser uma passagem correta, o que pode levar a resultados desastrosos, inclusive frases com cunho preconceituoso; este é um comportamento previsto pela OpenAI, e descrito previamente.

Em testes, pesquisadores da Universidade de Cornell conseguiram, por exemplo, fazer com que o Whisper, ao ser alimentado com uma frase simples, "mais duas garotas e uma mulher", as identificasse como negras, sem nenhum tipo de contexto dado nesse sentido; em outra passagem, o algoritmo alucinou a tal ponto, que transformou o texto em que um garoto pegava um guarda-chuva, em uma cena onde o mesmo mata outras pessoas com "um pedaço de uma cruz".

Com essa combinação de problemas, o Whisper pode não ser uma ferramenta indicada para todos os casos de uso, o que inclui hospitais. Instituições diversas usam o algoritmo para transcrever o áudio da conversa entre médico e paciente, para diminuir o tempo de consultas e usar o texto em prontuários. Nos Estados Unidos, pelo menos 40 unidades usam o software, refinado para termos médicos fornecidos pela companhia Nabla, com um detalhe: por "questões de segurança", a solução apaga o áudio original após a transcrição.

Isso impossibilita para um médico, em caso de qualquer tipo de dúvida sobre o texto transcrito do Whisper, revisá-lo com a conversa original; da mesma forma, pacientes com deficiência auditiva não têm como saber o que foi dito na conversa original, pois só o texto permanece.

Ao ser contatada pela AP, um porta-voz da OpenAI disse que a companhia "aprecia as descobertas dos pesquisadores", e que "estuda continuamente" formas de reduzir as alucinações de seus modelos generativos; ela deu a entender que atualizações futuras deverão minimizar os problemas do Whisper, mas não deu detalhes de quando fará isso.

Fonte: Associated Press

relacionados


Comentários