GHOST INTERVIEW #46 | Big Data contra as Big Lies



Por que a vida nas redes sociais não é igual à vida real? Como, raios, as pesquisas eleitorais mostram uma coisa e as eleições indicam outra? Qual a razão que motiva a discrepância entre pesquisas de opinião e vendas de produto? A Ghost Interview dessa semana começou a pesquisar as respostas dessas inquisições e acabou chegando no PhD em Economia e cientista de Dados norte-americano, Seth Stephens-Davidowitz. E ele deixou bem claro que a resolução para todas essas celeumas é única: todo mundo mente.


Para chegar nessa ousada afirmação, Seth, como bom cientista de dados, se baseou no Big Data. Mais especificamente, nos dados de pesquisas feitas no Google correlacionados com outros de uso digital. As descobertas foram tão estarrecedoras que ele até acabou escrevendo um livro sobre. E, até hoje, ele segue nessa linha de pesquisa, sempre usando a web e o digital para quebrar uma série de tabus relacionados aos hábitos reais das pessoas (sem contar na desmistificação do que é big data e como usá-lo). No Ghost Interview, que é feito a partir de um compilado de falas públicas e outras entrevistas que Seth já deu, ele aborda desde o hábito musical até mesmo os hábitos nas pesquisas pornográficas das pessoas, checa só:


MORSE: Seth, antes de tudo, a gente queria dizer que curtiu demais o “Everybody Lies”, achamos um livro instigante e bem humorado sobre dados e hábitos humanos. O que te levou a entrar nesse mundo de análise de informações digitais e o que te motivou a escrever o livro?


SETH STEPHENS-DAVIDOWITZ: Enquanto eu estava estudando para o meu PhD em economia, eu estava um pouco estafado. Eu não era tão fã de economia tradicional. Eu, na verdade, nunca fui, e estava naquele momento “O que eu fiz com a minha vida??”, o trabalho não avançava. No meio desse turbilhão, eu fiquei sabendo sobre a existência do Google Trends, essa ferramenta que permite que você saiba onde e quando as pessoas fazem pesquisas. Na época, lembro de falar com os meus amigos que tinha certeza que o Google sabia tudo sobre eles. Aquilo ficou na minha cabeça. Sabia também pela minha experiência nas ciências sociais que muitas fontes de dados tradicionais não são tão boas e não tem como confiar 100% no que elas dizem. Então acabei indo fundo nisso. 

Comecei com algumas pesquisas muito básicas, mas logo já estava digitando alguns assuntos bem mais “inapropriados”.. Rapidamente me mudei nessa direção, na verdade. Eu pensei que aquela era uma ferramenta importante para as ciências sociais exatamente nessas questões. Meu interesse maior segue sendo em saber como as pessoas são de verdade, tipo entender as entranhas da sociedade. Percebi que havia insights importantes sobre o que ninguém fala como racismo, sexo, insegurança e sexismo.

(...)

Claro que eu não posso apenas dizer que todas as pesquisas tradicionais não têm crédito. Mas, é preciso ponderar que tem vezes que elas falham. Estava falando com um colega da indústria alimentícia, e ele comentou que costumava fazer pesquisas de opinião e que os clientes sempre pedem opções mais saudáveis. Acontecia que, quando a marca lançava essas opções mais saudáveis, ninguém comia. Ninguém comprava. Então, definitivamente, há situações que é preciso ter mais ceticismo, inclusive em pesquisas de grupos. 

Existe um exemplo famoso, que diz que o resultado das pesquisas de opinião dos episódios pilotos de “Curb Your Enthusiasm” e de “Seinfield” foram bem negativas. Muitas pessoas falaram que os personagens principais não eram agradáveis. Mas quando você está em grupo, olhando a ação desses personagens, era o que se esperava que as pessoas falassem. Mas, por alguma razão, foram séries que fizeram sucesso. Acredito, de verdade, que precisamos ter algum ceticismo em relação às coisas que as pessoas falam e sempre prestar mais atenção nas coisas que as pessoas fazem, no que clicam, compram ou pesquisam. Acho que é sempre mais confiável.  (Entrevista ao podcast DataTalk de junho de 2018)

Voltando ao que você falou sobre o problema nas pesquisas nas ciências sociais, por quê isso acontece? O que o mundo digital tem te mostrado de mais interessante (e perturbador)?

A gente chama isso de “viés de desejabilidade social”, ou seja: você quer parecer bem numa pesquisa e para os outros. No lugar de dizer a verdade, você fala o que seria desejável. Assim, qualquer coisa que for socialmente inaceitável vai passar despercebida em pesquisas. Um exemplo bem clássico que a gente conhece nos Estados Unidos é, se você perguntar para as pessoas que votaram nas últimas eleições, uma quantidade enorme de pessoas que não votou fala que votou, porque é considerado socialmente inadequado você não votar. 

Isso acontece tanto que os economistas odeiam pesquisas porque não dá para confiar no que as pessoas falam para você. Você precisa, de fato, ver o que as pessoas fazem. Precisa prestar atenção nos incentivos. O problema com as pesquisas é que não há incentivo para que se diga a verdade. Enquanto, quando você está online, você tem o incentivo pois, se dizer a verdade, você ganha em troco a informação que precisa mesmo.

(...)

Há muitas coisas sobre as pessoas que não tínhamos idéia. Um dos meus exemplos favoritos - e isso é simplesmente bizarro - é que a principal pesquisa que começa "meu marido quer" na Índia é "meu marido quer que eu o amamente". Isso ninguém sabe. Literalmente depois que publiquei essa descoberta, eles começaram a entrevistar pessoas na Índia sobre o assunto. Ninguém sabia disso. Mas de fato existe. Os médicos passaram a falar: "Há um número razoável de homens na Índia - muito mais altos do que em qualquer outro país - que têm esse desejo". Mas essas pessoas não contam a ninguém, porque é segredo. Essas coisas existem. Há fatos sobre a natureza humana que não sabíamos porque as pessoas não falam sobre eles.

(...)

Outra pesquisa interessante - e que mostra bem essa diferença entre falar e fazer - é que você consegue prever quantas pessoas vão aparecer para votar apenas baseado na quantidade de pesquisas de endereço de cabines de votação antes da eleição. Esse tipo de intenção diz muito mais do que as pesquisas de rua.

Fonte: Entrevista ao Freakanomics em 10 de maio de 2017


MORSE: Nesse sentido, é de se esperar que pesquisas que falem de assuntos mais íntimos como sexo mostrem números errados, não? O que você descobriu sobre o assunto? 

SETH: Que os americanos fazem menos sexo do que falam. O jeito que estudei isso foi apenas olhando para os dados sobre vendas de camisinhas. A pesquisa oficial que pergunta às pessoas qual a frequência que elas fazem sexo e se ele é feito de maneira segura diz uma coisa, os números de venda de camisinha dizem outra. Faz as contas. Mulheres heterossexuais dizem que usam 1,1 bilhão de camisinhas por ano em sexo heterossexual. Homens dizem que usam 1,6 bilhão de camisinhas por ano. Ou seja: tem alguém mentindo. Então, quem está mentindo?

Apenas 600 milhões de camisinhas são vendidas por ano nos Estados Unidos. Temos que contar que uma parte não desprezível delas é usada por homens gays e algumas ficam na carteira, são descartadas. Ou seja: tanto homens quanto mulheres estão exagerando na frequência que usam a camisinha. Isso não significa, no entanto, que eles estão mentindo quando falam sobre a frequência de transas por semana. Eles apenas podem estar mentindo quando o assunto é proteção. 

(...)

Outro assunto interessante relacionado à sexualidade: “Será que meu marido é gay?” é uma das buscas mais feitas em Estados mais conservadores, como a Carolina do Sul, Mississipi e Tennessee. Também, a porcentagem de usuários que fazem buscas por pornografia gay é muito maior nesses Estados do que a porcentagem de pessoas que se dizem gays em pesquisa.

Fonte: Entrevista ao The Atlantic em 9 de junho de 2017


MORSE: Um dos pontos que você contou no livro é que muito da análise que você faz não é diferente do que a que médicos ou até que sua avó fazia. Pode falar um pouco mais disso?

SETH: Minha avó falava que eu tinha que achar uma mulher não muito bonita, muito inteligente, e boa com pessoas, ela usava informações de sua experiência. Minha avó é tipo [analista de] Big Data, e Big Data pode ser assustador para muitas pessoas, muita gente não sabe o que significa, mas é muito natural. É meio a forma que as pessoas já faziam [para pesquisar e adquirir conhecimento] , só que  agora com bases de dados maiores e muito mais honestas

Fonte: Entrevista ao CBS This Morning em 10 de maio de 2017


SETH: Existe uma metodologia chamada k-Nearest Neighbor em análise de Big Data onde você consegue achar uma pessoa similar a outra a partir de um número de características. Eu renomeei esse tipo de pesquisa para "método de sósias", porque é mais entendível assim. Basicamente, você olha numa base de dados enorme e procura os sósias, ou seja, quem tem as características mais parecidas, para poder prever o comportamento. 

A Amazon usa isso para o seu algoritmo de recomendações. Mas dá para ser usada em muitas outras áreas, estão começando a utilizar agora para o setor de saúde: de todos os pacientes, quem tem sintomas mais parecidos com os seus, e quais remédios funcionou para eles. São os "sósias de saúde". E é uma metodologia muito poderosa que se torna ainda mais poderosa quanto mais dados tiver. Quanto mais dados, mais fácil achar, naquela base de dados, pessoas similares - ou os sósias.

Isso é muito parecido com o que os médicos já fazem na vida real: eles tentam analisar como os sintomas de um paciente é parecido com  o de outros casos que ele já tratou ou estudou para, então, saber qual o melhor medicamento. A diferença é que eles têm feito isso num número restrito de pacientes, quando o potencial do Big Data é de conseguir analisar todo universo de pacientes - e conseguir cada vez mais 'sósias'.

Fonte: Pequena palestra postada pelo Big Think em 25 de fevereiro de 2019


MORSE: Agora, não é só do Google ou de sites pornográficos que você usa os dados, o Spotify também tem sido uma boa fonte de informações. Pode falar um pouco do que descobriu a partir das informações de música?

SETH: Meu irmão mais novo, Noah, e eu sempre discutimos sobre gosto musical. No caso, era sobre a música Born to Run de Bruce Springsteen, que eu amo e ele absolutamente odeia. Para a minha frustração as discussões de gosto musical é algo que passávamos muito tempo. Então decidir fazer algo sobre da única maneira que sei: analisei dados.

Eu procurei dados para entender com clareza porque eu e meu irmão nunca concordamos em termos musicais. Em particular, eu queria saber até que ponto o ano que nascemos influencia o tipo de música que escutamos e até que ponto as diferentes gerações discordam quando o assunto é música.

Para esse projeto, eu usei dados do Spotify, que compartilhou comigo a frequência que cada música era escutada por homens e mulheres de faixas etárias diferentes.

Os padrões eram claros. Mesmo em estilos musicais parecidos, como é o caso do rock, existem enormes diferenças entre o ano de nascença das pessoas e na popularidade das músicas.

Um exemplo para isso é a música “Creep”, do Radiohead. Ela é esta ranqueada em 164 nas mais populares entre homens com 38 anos. Mas ela não aparece nem no top 300 para aqueles que nasceram 10 anos antes ou 10 anos depois.

Notem que homens que tendem a gostar de "Creep" hoje em dia tinham 14 anos quando a música foi lançada em 1993. De fato, esse é o padrão consistente.

Eu fiz uma análise similar, cruzando os rankings da Billbord de 1960 a 2000. Medi com quantos anos os maiores fãs dessas mesmas músicas hoje em dia estavam quando essas canções foram publicadas.

O resultado foi que o que aconteceu com Creep é basicamente universal. Músicas que foram lançadas décadas antes agora são, em média, mais populares entre os homens que tinham 14 anos quando esses hits foram lançados. O período mais importante para a formação do gosto musical dos adultos foi entre 13 e 16 anos.

E as mulheres? Em média, suas músicas favoritas da vida adulta vieram de quando tinham 13 anos. O período de formação musical foram as idades entre 11 a 14 anos.

Eu achei interessante o quão claro são os padrões e o quanto a adolescência importa. Os anos mais importantes, de fato, são aqueles do fim da puberdade, que acontece um pouco antes para mulheres do que para homens. Isso adiciona mais uma peça para a evidência que mais e mais cientistas tem achado de que a gente nunca deixa o Ensino Médio.

Fonte: Artigo "The Songs That Bind" publicado no The New York Times em 10 de fevereiro de 2018



Quer saber mais?!


WiFi tem se tornado uma nova janela para distribuição de conteúdo. Além de ser uma nova forma de marcas engajarem com usuários através de conteúdos em formatos especiais.

Quer saber mais? Conheça o WiFi Experience by Hands.






MATERIAIS GRATUITOS

MORSE YEARBOOK

Veja o que o futuro da tecnologia mobile reserva para os próximos anos.

RECEBA NOSSO CONTEÚDO