Pedi à Márcia, minha assistente de IA, que gravasse um áudio para eu compartilhar no Instagram. A ideia era simples: um áudio curto, apresentando quem ela é e o que faz. Só isso.
Ela gravou. Ficou bom. Claro, objetivo, com personalidade. E aí eu fiz o que qualquer pessoa minimamente curiosa faria: pensei que dava para empacotar melhor. Se a mensagem estava boa, talvez a forma pudesse amplificar.
A Márcia já tinha um avatar definido. Uma identidade visual que vínhamos usando. Então pedi que ela gerasse imagens baseadas nesse avatar, explorando variações de pose, enquadramento e contexto. O conjunto que ela gerou não exigiu escolha. Eram exatamente as imagens que eu queria. Coerentes, alinhadas, com a personalidade certa.
O único detalhe é que eram estáticas. Foi aí que usei o Veo3 para gerar animações a partir dessas imagens. Movimento sutil, expressões leves, presença. As imagens ganharam vida.
Depois disso, juntar tudo foi simples: organizei as cenas e usei o áudio original como voice over. A peça começou a se fechar sozinha. Em pouco tempo, o vídeo estava pronto. Publiquei como Reel.
Achei que a história terminava ali. Não terminava.
Os comentários começaram a aparecer. Primeiro um “alô”, depois perguntas interessantes. E eu pensei: e se a Márcia respondesse também? Se a mesma lógica que criou o conteúdo pudesse sustentar a conversa?
A solução mais óbvia foi simular o humano. Automação de desktop. Ela enxerga a tela, clica, digita, publica. Funciona. É quase mágico. E é exatamente por isso que incomoda um pouco. É frágil. E, principalmente, é caro. Você paga por uma máquina inteira para executar o que, no fundo, é só troca estruturada de dados.
Foi aí que fiz a pergunta certa: existe um caminho mais direto? Em vez de simular alguém usando o sistema, por que não falar com o sistema?
Saímos do desktop e fomos para a API. Não foi instantâneo. Token que não servia, permissão faltando, mais um ajuste, mais uma tentativa. Até que funcionou. E quando funciona, a diferença é clara. Menor custo, maior controle, rastreabilidade real. Você deixa de empurrar a máquina e passa a orquestrá-la.
Ajustei o fluxo. Agora ela sugere respostas aos comentários. Eu reviso. Se aprovo, ela executa.
O que começou como um áudio virou vídeo. O vídeo virou conversa. A conversa virou processo.
No fim do dia, percebi que o mais interessante não foi publicar um Reel. Foi desenhar e orquestrar um sistema.