Nessa segunda parte, vamos falar sobre agregação, merging e filtros! É uma parte muito importante da análise de dados.

Eu irei utilizar um exemplo de um dataset que eu estou utilizando para aprender ciência de dados, então pode ser que algumas coisas não façam muito sentido porque você, caro leitor, não viu o que eu fiz antes.

Mas o importante é que você entenda o que está acontecendo, pois você poderá usar esses passos para suas futuras análises. Vamos lá!

Vamos criar um dataframe que conterá a média das avaliações a depender do ID do filme. Para tal, utilizaremos o dataframe ratings e agruparemos pelo ID do filme. Utilizaremos as_index como false para que os índices comecem do 0, e não com o ID do filme. Utilizaremos também a função mean para pegar a média de cada filme.

  • avg_ratings – variável que receberá um novo dataframe com o agrupamento da média das avaliações
  • ratings – meu dataframe que possui as notas
  • groupby – método para agrupar
  • movieId – a coluna que será utilizada para o agrupamento
  • as_index – como falso porque quero que os indices sejam reiniciados, ao invés de utilizar o ID do filme como índice
  • mean() – faz a média para o filme que quero
  • del avg_ratings[‘userId’] – excluindo coluna desnecessária
  • avg_ratings.head() – pego os 5 primeiros registros do meu novo dataframe

Agora, nós vamos adicionar essas médias para o nosso novo dataframe de filmes, o box_office.

  • box_office – novo dataframe que faz o merge do que eu tenho em movies com as médias.
  • on – coluna que usarei de referência para o merge
  • box_office.tail() – ver os últimos 5 registros

Vamos criar um filtro para saber se um filme é bem avaliado, com nota igual ou superior a 4. Depois, devemos mostrar os 5 ultimos com um slicing.

Agora, nós vamos criar outro filtro para saber se um filme é comédia. Para isso, verificaremos se a string de genres contém ‘Comedy’. Listaremos os 5 primeiros

Agora vamos utilizar os filtros criados anteriormente para ver quais filmes de comédia são mais bem avaliados:

Mais essa dica aí pro dia 😀