Empreendimentos Lightspeedplataforma de áudio apoiada Bolso FM anunciou que fez parceria com empresa de clonagem de voz OnzeLabs para converter rapidamente conteúdo de texto, como script, em séries de áudio usando IA.
Bolso FMque levantou US$ 103 milhões em financiamento da Série D em marçodisse ao TechCrunch na época que já estava experimentando a capacidade de converter conteúdo de texto em áudio usando OnzeLabs‘tecnologia. Agora, a empresa sediada na Índia ampliou a parceria para disponibilizar a ferramenta de conversão para todos os criadores nas próximas semanas.
Em fase de testes, a Pocket FM já produziu 30 mil horas de séries de áudio utilizando a tecnologia de IA da ElevenLab. Com a nova implementação, a startup espera triplicar sua biblioteca de conteúdo de mais de 100.000 horas de conteúdo de áudio este ano. A Pocket FM também disse que durante a fase experimental, as ferramentas alimentadas por IA ajudaram a reduzir o custo de produção de áudio em 90%.
O cofundador e CTO da Pocket FM, Prateek Dixit, disse ao TechCrunch durante uma ligação que, com essa parceria, a empresa quer tornar mais fácil para os escritores converterem seus escritos em séries de áudio.
“Temos mais de 250 mil escritores (incluindo os da plataforma de escrita Pocket Novel da empresa) e esta parceria diminui o custo de configuração e gravação de áudio para eles”, disse ele.
“Mesmo com uma boa configuração de ferramentas e equipamentos de gravação, os escritores podem produzir cerca de 30 minutos de conteúdo de áudio de alta qualidade por dia. Com as ferramentas de IA, esse resultado pode ser 10 vezes maior”, acrescentou.
A Pocket FM construiu uma ferramenta integrando a tecnologia ElevenLabs, por meio da qual oferece 50 vozes para escritores que desejam converter seu conteúdo. O cofundador da ElevenLabs, Mati Staniszewski, disse que a ferramenta de sua empresa entende o contexto da escrita e infere emoções por meio da voz automaticamente.
“Trabalhando com a Pocket FM, estamos implantando nossos modelos mais recentes que entendem o gênero da escrita e têm melhor emotividade”, disse Staniszewski.
Dixit observou que, com base nos dados do envolvimento dos usuários com esse tipo de conteúdo, a plataforma também planeja sugerir vozes que funcionem bem para escritores de um determinado gênero.
Pocket FM não é a única plataforma de série de áudio que faz experiências com ferramentas alimentadas por IA. Kuku FM apoiada pelo Google está usando GPT-4, Claude, BandLab e até ElevenLabs para ajudar seus redatores em diferentes etapas de criação, incluindo refinamento de roteiro, geração de miniaturas, adição de efeitos sonoros e conversão de texto em áudio.
Kuku FM disse ao TechCrunch que também está experimentando o uso de ferramentas de geração visual, como Midjourney e Runway, para criar anúncios relacionados ao conteúdo.
Qualidade do conteúdo e impacto nos artistas
A promessa das ferramentas alimentadas por IA é gerar mais conteúdo com mais rapidez, mas isso não significa que o conteúdo seja bom. A resposta da Pocket FM para ajudar na descoberta e trazer à tona conteúdo de qualidade é tornar seu algoritmo de descoberta sofisticado e fazer experiências com o envolvimento do usuário.
“Se um escritor publica uma série de áudio, apresentamos esse conteúdo a um número selecionado de usuários e observamos métricas de engajamento. Se essas métricas forem positivas, propagaremos isso ainda mais”, disse Dixit.
A utilização de IA pode levar a resultados mais rápidos e a uma biblioteca de conteúdo maior para essas plataformas, mas também reduzirá as funções dos dubladores que trabalham com elas. A Associação de Artistas de Locução da Índia (AVA) expressou sua preocupação com a assunção da IA.
“Se a IA assumir o controle, estaremos acabados. Como dubladores, precisamos implementar alguma regulamentação para que nosso sustento seja protegido”, Amarinder Singh Sodhi, secretário geral da associação, disse à publicação indiana Scroll.
Sodi também contou a Scroll sobre incidentes em que dubladores foram chamados ao estúdio para gravar amostras para treinar IA sem obter seu consentimento ou informá-los.
“Em um nível emocional, isso me assusta. Ao usar IA, você está essencialmente diluindo a experiência humana de contar histórias. Você perde uma conexão emocional”, disse Aditya Mattoo, dubladora de Delhi, ao TechCrunch.
Ele acrescentou que dar acesso a vozes premium a pessoas que não têm gosto e habilidade para produzir conteúdo de qualidade fará com que o mercado seja inundado por conteúdo ruim.
Quando perguntamos sobre o impacto da geração de voz alimentada por IA no Pocket FM, a empresa não respondeu diretamente à pergunta. No entanto, Dixit observou que o envolvimento com conteúdo gerado por IA em seus experimentos é “tão bom quanto a produção de narração humana”. Notavelmente, a empresa também está trabalhando em tecnologia para incorporar múltiplas vozes em uma saída de áudio.
Atualmente, tanto a Pocket FM quanto a Kuku FM não rotulam seu conteúdo para indicar se a IA foi usada no processo de criação.