Metodologia
Quais perguntas orientaram a pesquisa?
Como buscávamos investigar a possível relação entre algoritmos de recomendação e vieses algorítmicos nos apps de música, escolhemos duas das plataformas mais utilizadas no Brasil: o Deezer1 e o Spotify2. Ambas permitem que você possa ouvir os conteúdos “gratuitamente”, intercalando anúncios de publicidade entre uma e outra canção. A análise exploratória dos dados foi feita utilizando linguagem de programação Python com a biblioteca Pandas e a visualização com o software Tableau.
Estabelecemos, assim, três questões norteadoras:
- i) Os algoritmos de recomendação do Spotify e do Deezer recomendam músicas de modo diferente a depender do gênero de quem está ouvindo?;
- ii) O Spotify e o Deezer privilegiam artistas de algum gênero (homens/mulheres/não-bináries) em suas recomendações?;
- iii) Há diferenças, no que diz respeito a essas recomendações, quando ouvimos um ou outro gênero musical específico? Por exemplo, as recomendações para quem dá play em uma canção da MPB e em uma canção de funk terá, proporcionalmente, o mesmo tipo de indicações no que tange o gênero das(os) artistas?
É importante ressaltar que nossas coletas de dados não nos permitiram distinguir a identificação étnico-racial de artistas, nem investigar se ouvintes negras(os) recebiam recomendações diferentes de ouvintes brancas(os). A impossibilidade de coletar esses dados limitou nossa capacidade de mensurar como pertencimentos étnico-raciais poderiam ser articulados ao gênero das pessoas e aos ritmos musicais. Por essa razão, convidamos as e os leitores a observarem, em suas próprias buscas, a presença ou ausência de pessoas não-brancas nas recomendações recebidas quando estão ouvindo músicas e fazendo buscas em nosso simulador.
É crucial ainda reconhecer que, nas complexas dinâmicas de produção e implementação e uso de sistemas de recomendação, muito deve ser atribuído a fatores sociais “externos” às plataformas de streaming de música que investigamos. É evidente, por exemplo, que a música sertaneja apresenta uma baixa representatividade de artistas negras(os) em sua produção por fatores que remetem à formação deste gênero musical na cultura brasileira. Portanto, o convite para observar a presença ou ausência de pessoas não brancas nas recomendações não se limita apenas a pensar no que o algoritmo recomenda, mas também em compreender as interconexões entre as desigualdades que estruturam a sociedade brasileira e como isso pode refletir nas recomendações algorítmicas de músicas.
“A música sertaneja é um dos gêneros majoritariamente feito por pessoas brancas. Desde a popularização do ritmo, poucos artistas negros tiveram destaque ao defender o estilo musical. Entre eles, estão João Paulo, que fez dupla com Daniel e morreu em 1997; os cantores Pena Branca & Xavantinho, que atuaram juntos até 1999; e Rick, que foi parceiro de Renner até 2015 e hoje está em carreira solo3.
A dificuldade de coletar esse tipo de dado nos remete às discussoes que têm ocorrido em torno da regulação das plataformas e da inteligência artificial, juntamente com a crescente demanda por transparência na coleta e uso de dados de usuárias(os), o que ressalta a importância de permitir o acesso desses dados às e aos pesquisadores. Essa abertura possibilitaria, por exemplo, compreender as dinâmicas presentes no mercado musical e entender a formação de preferências e hábitos dos consumidores, fornecendo insights fundamentais para compreender a organização de nossa sociedade.
Se nem tudo pode ser atribuído a uma responsabilidade ou falha das plataformas de streaming, visto que as desigualdades se faziam presentes no universo musical muito antes de a internet existir, não podemos ignorar que no momento em que essas questões passam a se fazer presente no universo das plataformas, mas não são endereçadas por elas, estamos diante da omissão de combate e mitigação de um problema social que se coloca de forma pungente.
Como os gêneros musicais, as e os artistas foram selecionados?
Decidimos coletar e analisar dados de cinco gêneros musicais bastante presentes no Brasil, que são: Rap, Gospel, Música Popular Brasileira (MPB), Sertanejo e Funk. Durante o processo, surgiu a ideia de realizar a mesma coleta para os artistas mais ouvidas(os) nas duas plataformas, a fim de verificar se os padrões identificados nos gêneros Rap, Gospel, MPB, Sertanejo e Funk também se manifestariam na análise dos artistas mais ouvidas(os).
Em 2021, quando ocorreu a coleta dos dados, o Spotify divulgou uma lista com as(os) cinco artistas mais ouvidas(os), enquanto o Deezer divulgou uma lista de dez artistas mais ouvidas(os). Como os cinco artistas mais ouvidas(os) no Spotify também estavam presentes na lista dos mais ouvidas(os) do Deezer, decidimos trabalhar com esse grupo de Top 5 na nossa pesquisa. No entanto, ao percebermos que quatro dos cinco artistas desse Top 5 pertenciam ao gênero sertanejo, optamos por fazer uma modificação na abordagem inicial. Decidimos remover o gênero sertanejo do grupo de ritmos musicais propostos inicialmente e incluímos o sertanejo apenas entre os artistas do Top 5.
Dessa forma, estabelecemos o escopo com quatro gêneros musicais: Rap, Gospel, MPB e Funk, além dos artistas presentes no Top 5. Em seguida, selecionamos dois artistas (um homem e uma mulher) para cada gênero musical, com números de seguidores/ouvintes próximos. Esses artistas foram escolhidos como representativos do respectivo ritmo musical para a análise dos resultados. As e os artistas selecionados pelas pesquisadoras, chamadas(os) aqui como Not Top 5, foram:
Rap:
Gospel:
MPB:
Funk:
Sertanejo (posteriormente retirado):
Já as e os artistas presentes no TOP 5 do Deezer e do Spotify), foram: Os Barões da Pisadinha, Gusttavo Lima, Marília Mendonça, Jorge & Mateus e Henrique & Juliano.
A escolha dos gêneros musicais acima se deram na tentativa de incluir uma diversidade de artistas, pensando nos principais ritmos consumidos nacionalmente, como é o caso do Sertanejo e do Funk, mas também em consumos que possam surgir a partir de diferentes compreensões sociais e valores culturais atribuídos.
Definição dos perfis e simulação de ouvintes: o passo a passo
Com a lista de artistas definida, o passo seguinte foi a coleta das músicas que seriam recomendadas pelas plataformas Spotify e Deezer. Para tanto, foi criado um conjunto de bots que iriam simular diferentes ouvintes de playlists de músicas recomendadas para cada artista definida(o). No momento da realização da coleta, ambas as plataformas permitiam que as(os) usuárias(os) se identificassem com o gênero masculino, feminino ou não-binário. Assim, foram criados 6 bots para a coleta de cada artista de cada gênero e do grupo Top5, no Spotify e no Deezer. Ou seja, 2 bots masculinos, 2 bots femininos e 2 bots não-binários para um total de 13 artistas, totalizando 78 bots.
Com as contas criadas, o próximo passo foi executar a simulação de uma pessoa ouvinte de playlist. Assim, atribiu-se uma playlist para cada um dos grupos de seis bots. Ou seja, o bot iniciava ouvindo, por exemplo, Rico Dalassam. A partir disso, o bot ouviria as próximas cinquenta músicas que fossem recomendadas. Para que fosse possível coletar as músicas recomendadas, foi utilizada a versão web do Spotify e do Deezer.
Devido a limitações de hardware, a simulação para todas as e os artistas da lista não ocorreu simultaneamente, pois isto implicaria a execução paralela de 156 playlists (78 bots para Deezer + 78 bots para Spotify). Além disso, a execução aconteceria duas vezes, pois se
desejava verificar recomendações que aconteceriam no turno da manhã e da noite. Para lidar com esta limitação, a realização da simulação ocorreu em diferentes semanas, onde cada artista da lista era “ouvido” pelos bots. Dessa forma, a execução caiu para 12 playlists em paralelo (6 bots para Deezer + 6 bots para Spotify) duas vezes ao dia. Dado que não tínhamos um computador dedicado ao experimento, as 12 playlists foram executadas entre os meses de Abril e Dezembro de 2021.
Como foi utilizada a versão web das plataformas, a simulação paralela ocorreu em abas de Navegador Web. Para garantir que cada bot executaria uma instância independente de navegador, foi utilizado o recurso de container. Nesta pesquisa, foi utilizado o Firefox com a extensão de container Multi-Account <https://addons.mozilla.org/en-US/firefox/addon/multi-account-containers/>
Coleta dos Dados
A coleta das músicas recomendadas para cada bot foi realizada por meio de raspagem. Para tanto, um código em Python foi implementado utilizando as bibliotecas Selenium <https://www.selenium.dev/>, uma extensão para acessar containers em Firefox <https://addons.mozilla.org/en-US/firefox/addon/open-url-in-container/> e Beautiful Soup <https://www.crummy.com/software/BeautifulSoup/bs4/doc/>. Selenium é uma ferramenta para automatização de navegadores por meio de programação. Dado que a simulação ocorreu em containers, a extensão permitiu o acesso do código automatizador, com Selenium, a cada uma das abas containers. Por fim, Beautiful Soup é um recurso que permite a realização de tarefas relacionadas a raspagem de dados de páginas Web.
A simulação e a coleta ocorreram semanalmente. Após a finalização da simulação, o código coletava os dados relacionados às 50 músicas recomendadas pelas plataformas e armazenada em uma base de dados local. Estes dados foram: ID único da música, nome da música, nome da pessoa artista, duração da música e ordem da música na playlist.