Meio Bit » Robótica e IA » aTrain – Como transcrever e diarizar áudios em segundos

aTrain – Como transcrever e diarizar áudios em segundos

aTrain é um software de transcrição e diarização de áudios que é o sonho de todo mundo que trabalha com entrevistas, audiências, etc.

Transcrever entrevistas, ou “decupar”, no jargão jornalístico, é uma das tarefas mais tediosas da profissão, envolve horas e horas indo e voltando, como pele daquilo, ouvindo trechos de falas, escrevendo, revisando, corrigindo, para no final usar uma fração de tudo. É uma tarefa inglória, tornada mais simples com a tecnologia.

Não ESSE A-Train (Crédito: Vought International)

Com o Whisper já ficou bem mais fácil transcrever áudio, mas e quando estamos transcrevendo um debate, uma conversa, uma cena de filme? Aí entra em cena o conceito de diarização, onde você separa as falas de cada pessoa. Isso é um inferno, é mais tedioso ainda do que apenas transcrever áudio.

Existem ferramentas para isso, uma das mais populares é o Pyannote, uma rede neural em Python, mas ela é notoriamente complicada de instalar e configurar, basicamente linha de comando, aquele negócio que o povo com menos de 30 anos tem urticária só de pensar.

Para usar o Pyannote você precisa de Git, Python, um ambiente de desenvolvimento, Conda e mais um monte de nomes esquisitos para o afegão médio. Não dá pra exigir que pessoas normais tenham familiaridade com essas ferramentas, elas querem soluções. Felizmente, soluções existem.

Dessa vez graças ao povo da Universidade de Graz, na Áustria. Eles unificaram tudo em uma ferramenta facílima de usar, o aTrain. E sim, é Open Source. O aTrain é uma solução completa de transcrição, diarização e legendação de áudios e vídeos.

Melhor ainda: Ele roda tanto em placas de vídeo (nVidia) com no mínimo 6GB de VRAM, ou direto em CPU, só demorando (bem) mais para realizar a transcrição. Mesmo assim, ordens de magnitude mais rápido do que manualmente.

Ele entende inglês, português e uma penca de outros idiomas.

Onde Baixar o aTrain?

Você pode instalar direto da App Store da Microsoft, ou baixar o instalador da Universidade Graz, mas CALMA. Antes de clicar, o aviso: São 10GB de download, se sua banda não for larga, prepare a bunda pois você vai tomar chá de cadeira. E verifique direitinho se você tem espaço no seu disco C:, o aTrain nesse ponto não é NADA amigável.

Ele não tem opção para configurar NADA, ele vai se instalar no disco C, usar os próprios diretórios de documentos, e você não vai dar um pio.

Depois de tudo baixado e instalado, execute o aTrain (excelente idéia – Hughie). Ele vai abrir uma tela dessas. Clicando em Escolher Arquivo a gente... escolhe o arquivo para ser transcrito. Eu estou usando como exemplo uma entrevista aleatória baixada do YouTube.

A opção seguinte é onde selecionamos o modelo de IA para fazer a transcrição. Quanto menor, mais rápido, mas perdemos em precisão. O médio é suficiente para a maioria dos usos, mas sendo honesto, o bicho é tão rápido que o modelo large-v2 deve ser usado como padrão.

Tela de seleção de modelos. No bom sentido, sem sofá (Crédito: MeioBit)

A seleção de idioma é opcional, mas eu recomendo, evita que o aTrain se confunda.

Aqui, o pulo do gato: Multispeaker é onde você sai da transcrição simples do Whisper para a diarização, separando por participante. Selecione Multispeaker. Ele pedirá o número de participantes. Não é obrigatório, mas ajuda bastante. No caso como é uma entrevista simples, selecionei dois.

Selecionando os participantes (Crédito: Meio Bit)

Feito isso, agora basta apertar START e ir pegar um café.

Dica: Em Advanced Settings há uma opção de Compute Type, int8 ou float16. É a representação interna numérica usada pela GPU. Se sua placa for uma Nvidia decente, selecione float16, o ganho de velocidade é absurdo.

Se você não tiver essa opção habilitada... paciência (Crédito: Meio Bit)

A tela de finalização dá a opção de abrir a pasta com as transcrições. Normalmente elas ficam em:

C:\Users\<username>\Documents\aTrain\transcriptions

Nada amigável, eu sei, mas vale o esforço.

Arquivos finais (Crédito: Meio Bit)

O arquivo metadata.txt traz informações sobre o comprimento do áudio transcrito, idioma e outros dados. É ótimo para comparar resultados e configurações.

Transcription.json é o arquivo principal com todas as informações transcritas, um bom programador pode se divertir com ele, mas não é para nos preocuparmos com esse arquivo.

transcription.srt é a transcrição em formato de legenda, pronto para ser lido no VLC ou em praticamente qualquer outro player de vídeo.

transcription.txt, se a opção de Multispeaker tiver sido selecionada, será a transcrição com cada participante identificado. O padrão é SPEAKER_01, SPEAKER_02, SPEAKER_03... você, claro, irá usar um simples comando de substituição para trocar pelo nome do interlocutor, claro.

transcription_maxqda.txt traz a transcrição com informações de timestamp, mostrando onde na linha do tempo cada frase foi dita. Isso é essencial para localizar o trecho na gravação, quando você precisa recuperar aquela parte do vídeo para usar em alguma coisa.

transcription_timestamps.txt separa linha a linha, marcando a timestamp, mais fácil de identificar o momento, mas mais chato de ler.

Os arquivos resultantes (Crédito: Meio Bit)

Velocidade

O aTrain transcreveu e diarizou um áudio de 13 minutos em 2 minutos cravados. Não é como o Insanely Fast Whisper, mas está bem razoável.

aTrain é rápido mas não é perfeito (Crédito: Amazon Prime Video)

Problemas com o aTrain

Embora seja infinitamente melhor que qualquer estagiário, o aTrain não é perfeito. Ele às vezes se confunde com falas rápidas, e quando pessoas falam ao mesmo tempo, ele não consegue transcrever o áudio.

Não é aconselhável rodar o aTrain e disponibilizar o resultado imediatamente, sem revisão, mas isso vale para qualquer trabalho jornalístico minimamente sério.

Leia mais sobre: aTrain, IA, whisper.

relacionados

Comentários

Exibir Comentários