Como o Google pode te ajudar a projetar a taxa de desemprego
Um exercício de projeção para a taxa de desemprego da PNAD Contínua de fevereiro de 2025.
Na última aula do meu curso de Projeções Macroeconômicas: Teoria e Prática, eu fiz uma provocação aos alunos inspirada no livro Todo Mundo Mente: O que a internet e os dados dizem sobre quem realmente somos.1 Eu abri a aula dizendo: “Você pode mentir para todo mundo, menos para o Google.”
Eu não tinha como objetivo discutir questões relacionadas a algum tipo de rastreamento, dos anúncios que aparecem logo em seguida ao mencionarmos algum tipo de categoria de produto, nem nada disso. Era muito mais simples e, arrisco a dizer, até mais poderoso. No momento em que fazemos uma busca no Google, aquilo que procuramos é muito verdadeiro. E essa verdade pode ajudar a antecipar o comportamento de variáveis econômicas.
No artigo Predicting the Present with Google Trends, Hyunyoung Choi e Hal Varian abordam como os dados do Google Trends correlacionam com variáveis macroeconômicas:
We are not claiming that Google Trends data can help in predicting the future. Rather we are claiming that Google Trends may help in predicting the present. (Grifo no original).
Os autores fornecem um exemplo para ilustrar a citação acima: buscas relacionadas a automóveis e autopeças em um dado mês estariam positivamente correlacionadas às vendas de automóveis no período. Estas, inclusive, são divulgadas apenas com uma defasagem e, por isso, segundo os autores, os dados do Google Trends se tornam atraentes, já que podem ser vistos como métricas em tempo real da atividade econômica.
Francesco D’Amuri e Juri Marcucci encontram resultados que reforçam o poder preditivo desse tipo de dado no artigo The Predictive Power of Google Searches in Forecasting US Unemployment, publicado no International Journal of Forecasting. Os autores encontram que modelos que utilizaram o índice do Google Trends tiveram um erro de previsão menor em diversos horizontes.
Qual é a intuição para esses resultados? Ora, imagine uma pessoa que se encontra em um momento de incerteza no qual começa a questionar se conseguirá manter o seu emprego por mais tempo. Um primeiro movimento pode ser o de pesquisar no Google sobre o “seguro-desemprego”. Como pode ser visto no gráfico a seguir, esse tipo de busca cresce justamente em momentos como a recessão da crise de 2008, a recessão de 2014-2016 ou da crise da Covid.
Importante ressaltar que os dados do gráfico não representam a quantidade de buscas, mas um índice que coloca o valor 100 para o mês com a maior quantidade de buscas da expressão analisada:
The query index is based on query share: the total query volume for the search term in question within a particular geographic region divided by the total number of queries in that region during the time period being examined. The maximum query share in the time period specified is normalised to be 100, and the query share at the initial date being examined is normalised to be zero. (Choi e Varian, 2012; grifo do original).
Mas nem tudo são flores. Em artigo publicado na Finance Research Letters, intitulado Nowcasting of the US Unemployment Rate Using Google Trends, Shintaro Nagao, Fumiko Takeda e Riku Tanaka mostram que as mudanças de critérios no Google Trends ao longo do tempo podem ter imposto certos limites à capacidade preditiva desse tipo de dado, ao menos em exercícios de nowcasting.
De qualquer forma, a pergunta que motivou este texto é: será que os dados do Google Trends melhoram as projeções da taxa de desemprego no Brasil?
Projeção da taxa de desemprego no Brasil
Assim como fiz nos exercícios aplicados à série da produção industrial (cuja projeção não ficou ruim!), comparei o desempenho de alguns modelos e os resultados foram interessantes. Considerei sete modelos de regressão com séries temporais nos quais, em cada um deles, eu fui adicionando como variável explicativa o índice do Google Trends para diferentes expressões; além disso, também estimei um modelo ARIMA cuja ordem era selecionada automaticamente, um modelo ETS também selecionado automaticamente e um modelo ARIMA-X.2 Avaliei as projeções fora da amostra, considerando uma amostra de treinamento em expansão.
O modelo que se destacou em todas as métricas (simétricas ou assimétricas) foi o ARIMA-X. A combinação de componentes autorregressivos e média móvel com os dados do Google produziu erros de previsão entre 25% e 50% menores do que o melhor modelo alternativo em cada uma das métricas!
Com isso, reestimei o ARIMA-X para a amostra toda e a projeção do modelo para a taxa de desemprego de fevereiro de 2025 é de 6,62%, um aumento frente ao número de 6,5% de desempregados registrado em janeiro do mesmo ano.
Stephens-Davidowitz, Seth. 2018. Todo mundo mente: O que a internet e os dados dizem sobre quem realmente somos. Alta Books Editora.