A Pizza de Amêijoa Branca na Frank Pepe Pizzeria Napoletana em New Haven, Connecticut, é uma revelação. A crosta, beijada pelo calor intenso do forno a carvão, atinge um equilíbrio perfeito entre crocância e mastigação. Coberto com amêijoas recém-descascadas, alho, orégano e uma camada de queijo ralado, é uma prova da magia que ingredientes simples e de alta qualidade podem evocar.
Parece comigo? Não é. Todo o parágrafo, exceto o nome da pizzaria e a cidade, foi gerado pelo GPT-4 em resposta a um simples pedido de crítica do restaurante no estilo de Pete Wells.
Eu tenho alguns problemas. Eu nunca consideraria qualquer comida uma revelação ou descreveria o calor como um beijo. Não acredito em magia e raramente considero algo perfeito sem usar “quase” ou alguma outra proteção. Mas esses descritores preguiçosos são tão comuns na escrita sobre alimentos que imagino que muitos leitores mal os notem. Estou estranhamente sintonizado com eles porque sempre que cometo um clichê em meu texto, recebo um tapa nas orelhas do meu editor.
Ele não se deixaria enganar pelo falso Pete. Nem eu. Mas por mais que me doa admitir, acho que muitas pessoas diriam que é uma farsa de quatro estrelas.
A pessoa responsável por Phony Me é Balazs Kovacs, professor de comportamento organizacional na Yale School of Management. Em um estudo recente, ele alimentou um grande lote de análises do Yelp sobre o GPT-4, a tecnologia por trás do ChatGPT, e pediu que ele as imitasse. Suas cobaias – pessoas – não conseguiam diferenciar entre avaliações genuínas e aquelas produzidas pela inteligência artificial. Na verdade, era mais provável que pensassem que as análises da IA eram reais. (O fenômeno das falsificações geradas por computador que são mais convincentes do que as reais é tão conhecido que existe um nome para ele: hiperrealismo de IA.)
O estudo do Dr. Kovacs pertence a uma crescente corpo de pesquisas que sugerem que as versões mais recentes da IA generativa podem passar no teste de Turing, um padrão cientificamente confuso, mas culturalmente ressonante. Quando um computador consegue nos fazer acreditar que a linguagem que ele emite foi escrita por um ser humano, dizemos que ele passou no teste de Turing.
Há muito que se supõe que a IA acabaria por passar no teste, proposto pela primeira vez pelo matemático Alan Turing em 1950. Mas mesmo alguns especialistas ficam surpreendidos com a rapidez com que a tecnologia está a melhorar. “Está acontecendo mais rápido do que as pessoas esperavam”, disse Kovacs.
A primeira vez que o Dr. Kovacs pediu ao GPT-4 para imitar o Yelp, poucos foram enganados. A prosa era perfeita demais. Isso mudou quando o Dr. Kovacs instruiu o programa a usar grafia coloquial, enfatizar algumas palavras em letras maiúsculas e inserir erros de digitação – um ou dois em cada revisão. Desta vez, o GPT-4 passou no teste de Turing.
Além de marcar um limiar na aprendizagem automática, a capacidade da IA de soar como nós tem o potencial de minar qualquer confiança que ainda tenhamos nas comunicações verbais, especialmente as mais curtas. Mensagens de texto, e-mails, seções de comentários, artigos de notícias, postagens em mídias sociais e avaliações de usuários serão ainda mais suspeitos do que já são. Quem vai acreditar em uma postagem do Yelp sobre um croissant de pizza ou em um despacho brilhante do OpenTable sobre uma degustação de sushi omakase de US$ 400, sabendo que seu autor pode ser uma máquina que não consegue mastigar nem engolir?
“Com as avaliações geradas pelos consumidores, sempre foi uma grande questão saber quem está por trás da tela”, disse Phoebe Ng, estrategista de comunicação de restaurantes na cidade de Nova York. “Agora é uma questão do que está por trás da tela.”
As opiniões online são a graxa nas rodas do comércio moderno. Em uma pesquisa de 2018 pelo Pew Research Center, 57% dos americanos entrevistados disseram que sempre ou quase sempre leem avaliações e classificações na Internet antes de comprar um produto ou serviço pela primeira vez. Outros 36 por cento disseram que às vezes o faziam.
Para as empresas, alguns pontos em uma classificação com estrelas no Google ou no Yelp podem significar a diferença entre ganhar dinheiro e falir. “Vivemos de avaliações”, disse-me o gerente de uma agência Enterprise Rent-a-Car no Brooklyn na semana passada, enquanto eu pegava um carro.
Um viajante de negócios que precisa de uma carona que não quebre na New Jersey Turnpike pode ser mais influenciado por um relatório negativo do que, digamos, alguém que está apenas procurando um brunch. Ainda assim, para proprietários de restaurantes e chefs, o Yelp, o Google, o TripAdvisor e outros sites que permitem que os clientes dêem a sua opinião são uma fonte de preocupação sem fim e de fúria ocasional.
Uma causa especial de frustração é o grande número de pessoas que não se preocupam em comer no local sobre o qual escrevem. Antes um artigo sobre Eater apontou na semana passada que o primeiro local em Nova York da rede de dim sum Din Tai Fung, com sede em Taiwan, estava sendo atacado por avaliações de uma estrela do Google, arrastando sua classificação média para 3,9 de 5 possíveis. ainda.
Alguns críticos fantasmas são mais sinistros. Os restaurantes foram alvo de críticas de uma estrela, seguidas de um e-mail oferecendo-lhes a retirada em troca de cartões-presente.
Para lutar contra ataques de má-fé, alguns proprietários recrutam seus mais próximos e queridos para inundar a zona com sinopses positivas. “Uma questão é: quantos pseudônimos todos nós da indústria de restaurantes temos?” disse Steven Hall, proprietário de uma empresa de relações públicas em Nova York.
Um avanço em relação a uma campanha organizada de preenchimento de votos, ou talvez um retrocesso, é a prática de trocar refeições ou dinheiro por cortesias por artigos positivos. Além disso, surge o vasto e sombrio reino dos revisores que não existem.
Para promover seus próprios negócios ou derrotar seus rivais, as empresas podem contratar corretores que fabricaram pequenos exércitos de revisores fictícios. De acordo com Kay Deanum defensor do consumidor que pesquisa fraudes em avaliações on-line, essas contas geralmente recebem um extenso histórico de avaliações anteriores que funcionam como camuflagem para sua produção paga para jogar.
Em dois recente vídeosela apontou uma rede de clínicas de saúde mental que recebeu avaliações elogiosas do Yelp, ostensivamente enviadas por pacientes satisfeitos, cujas contas estavam repletas de avaliações de restaurantes retiradas palavra por palavra do TripAdvisor.
“É um oceano de falsidade e muito pior do que as pessoas imaginam”, disse Dean. “Os consumidores estão sendo enganados, as empresas honestas estão sendo prejudicadas e a confiança está se desgastando.”
Tudo isso está sendo feito por meras pessoas. Mas, como escreve o Dr. Kovacs em seu estudo, “a situação agora muda substancialmente porque os humanos não serão obrigados a escrever resenhas com aparência autêntica”.
Dean disse que se o conteúdo gerado por IA se infiltrar no Yelp, no Google e em outros sites, será “ainda mais desafiador para os consumidores tomarem decisões informadas”.
Os principais sites afirmam ter maneiras de descobrir contas de Potemkin e outras formas de falsidade. O Yelp convida os usuários a sinalizar comentários duvidosos e, após uma investigação, removerá aqueles que violarem suas políticas. Ele também esconde avaliações que seu algoritmo considera menos confiáveis. No ano passado, de acordo com o seu mais recente Relatório de confiança e segurançaa empresa intensificou o uso da IA “para detectar ainda melhor e não recomendar avaliações menos úteis e menos confiáveis”.
Dr. Kovacs acredita que os sites precisarão se esforçar mais agora para mostrar que não estão postando regularmente os pensamentos dos robôs. Poderiam, por exemplo, adoptar algo como o Etiqueta “Compra verificada” que a Amazon se atenha a artigos sobre produtos que foram comprados ou transmitidos por meio de seu site. Se os leitores suspeitarem ainda mais das avaliações de restaurantes de crowdsourcing do que já suspeitam, isso poderá ser uma oportunidade para Mesa aberta e Resyque aceitam feedback apenas dos clientes que comparecem para fazer suas reservas.
Uma coisa que provavelmente não funcionará é pedir aos computadores que analisem a linguagem sozinhos. Kovacs executou suas sinopses reais e elaboradas do Yelp por meio de programas que deveriam identificar IA. Assim como suas cobaias, disse ele, o software “achava que os falsos eram reais”.
Isto não me surpreendeu. Eu mesmo respondi à pesquisa do Dr. Kovacs, confiante de que seria capaz de identificar os pequenos detalhes concretos que um restaurante de verdade mencionaria. Depois de clicar em uma caixa para certificar que não era um robô, rapidamente me perdi em uma confusão de pontos de exclamação e rostos carrancudos. Quando cheguei ao final do teste, eu estava apenas adivinhando. Identifiquei corretamente sete entre 20 avaliações, um resultado entre jogar uma moeda e perguntar a um macaco.
O que me surpreendeu foi que o GPT-4 não fabricou suas opiniões do nada. Ele os uniu a partir de fragmentos das descrições dos Yelpers sobre seus lanches da tarde e brunches de domingo.
“Não é totalmente feito em termos das coisas que as pessoas valorizam e com o que elas se preocupam”, disse Kovacs. “O que é assustador é que isso pode criar uma experiência que parece e cheira a experiência real, mas não é.”
A propósito, o Dr. Kovacs me disse que entregou o primeiro rascunho de seu artigo a um programa de edição de IA e aceitou muitas de suas sugestões na cópia final.
Provavelmente não demorará muito para que a ideia de uma revisão puramente humana pareça estranha. Os robôs serão convidados a ler por cima de nossos ombros, alertando-nos quando usamos o mesmo adjetivo muitas vezes, empurrando-nos para um verbo mais ativo. As máquinas serão nossos professores, nossos editores, nossos colaboradores. Eles até nos ajudarão a parecer humanos.