Python para Ciência de Dados – Pandas

Pandas Series e DataFrames

Hoje eu comecei a mexer um pouco com Pandas. Eu já havia mexido com esse pacote em outro curso, mas é sempre bom rever os conceitos e aprender alguns novos.

O pacoted Pandas tem duas estruturas principais de dados

  • Series
  • DataFrames

Series

Series são matrizes de uma única dimensão, enquando DataFrames são matrizes de mais de uma dimensão, ou seja, bidimensionais, tridimensionais, etc.

Uma Serie tem dados e índices. Primeiramente passamos os dados e depois os índices:


Suponhamos que você queira ver os índices disponíveis; Simplesmente utilize o seguinte:


Agora digamos que você deseja localizar o valor de um ou mais de seus índices:


Você pode também selecionar os índices que você quiser pelo índice numérico deles:


Você pode utilizar o método iloc para localizar através de um inteiro:


Além disso, você pode conferir se existe um índice dentro de uma matriz simplesmente utilizando o in.


Você pode também fazer operações com a matriz:

Multiplicar:


Exponenciação onde existem valores numéricos:


Enfim, você pode fazer diversas operações com as Series.

DataFrames

DataFrame do Pandas são estrutura de dados rotulados em matrizes bidimensionais. Oi? Sim, isso mesmo. O que eu disse é que ela tem um rótulo em cima da coluna, um rótulo para a linha e o valor da célula.

Vamos criar um dicionário com duas Series:


Agora vamos transformar esse dicionário em uma dataframe:


Para ver os índices, use a seguinte forma:


Agora, para identificar as colunas, utilize:


Você pode querer criar um dataframe apenas com alguns dos itens do dicionário:


Você pode também criar um dataframe apenas com alguns itens do dicionário e com apenas algumas colunas:


Agora, vamos ver como criar um dataframe com uma lista de dicionários em Python:


Transforme em um dataframe:


Selecione apenas alguns rótulos:


Perceba que aqui ele transforma os índices das linhas em nomes: red blue.

Selecione apenas algumas colunas:

Operações básicas com DataFrame

Mostrar os valores de one de df:


Criar uma nova coluna com a multiplicação de outras duas colunas:


Criar uma nova coluna com valores booleanos a depender dos valores de outra coluna:


Retirar uma das colunas e guardar em uma variável:


Excluir uma das colunas:


Inserir uma nova coluna:

Aqui, vamos inserir a coluna de índice 2, com o título cópia_col_um com os dados da df[‘one’].


Inserir nova coluna com valores de uma coluna do DataFrame:


Aqui, a nova coluna será populada com os valores até a linha de índice 2, sendo ela não inclusiva.

Bom, por hoje é isso 🙂

 

Nos vemos amanhã neste mesmo site 😀