Pandas Series e DataFrames

Hoje eu comecei a mexer um pouco com Pandas. Eu já havia mexido com esse pacote em outro curso, mas é sempre bom rever os conceitos e aprender alguns novos.

O pacoted Pandas tem duas estruturas principais de dados

  • Series
  • DataFrames

Series

Series são matrizes de uma única dimensão, enquando DataFrames são matrizes de mais de uma dimensão, ou seja, bidimensionais, tridimensionais, etc.

Uma Serie tem dados e índices. Primeiramente passamos os dados e depois os índices:

Suponhamos que você queira ver os índices disponíveis; Simplesmente utilize o seguinte:

Agora digamos que você deseja localizar o valor de um ou mais de seus índices:

Você pode também selecionar os índices que você quiser pelo índice numérico deles:

Você pode utilizar o método iloc para localizar através de um inteiro:

Além disso, você pode conferir se existe um índice dentro de uma matriz simplesmente utilizando o in.

Você pode também fazer operações com a matriz:

Multiplicar:

Exponenciação onde existem valores numéricos:

Enfim, você pode fazer diversas operações com as Series.

DataFrames

DataFrame do Pandas são estrutura de dados rotulados em matrizes bidimensionais. Oi? Sim, isso mesmo. O que eu disse é que ela tem um rótulo em cima da coluna, um rótulo para a linha e o valor da célula.

Vamos criar um dicionário com duas Series:

Agora vamos transformar esse dicionário em uma dataframe:

Para ver os índices, use a seguinte forma:

Agora, para identificar as colunas, utilize:

Você pode querer criar um dataframe apenas com alguns dos itens do dicionário:

Você pode também criar um dataframe apenas com alguns itens do dicionário e com apenas algumas colunas:

Agora, vamos ver como criar um dataframe com uma lista de dicionários em Python:

Transforme em um dataframe:

Selecione apenas alguns rótulos:

Perceba que aqui ele transforma os índices das linhas em nomes: red blue.

Selecione apenas algumas colunas:

Operações básicas com DataFrame

Mostrar os valores de one de df:

Criar uma nova coluna com a multiplicação de outras duas colunas:

Criar uma nova coluna com valores booleanos a depender dos valores de outra coluna:

Retirar uma das colunas e guardar em uma variável:

Excluir uma das colunas:

Inserir uma nova coluna:

Aqui, vamos inserir a coluna de índice 2, com o título cópia_col_um com os dados da df[‘one’].

Inserir nova coluna com valores de uma coluna do DataFrame:

Aqui, a nova coluna será populada com os valores até a linha de índice 2, sendo ela não inclusiva.

Bom, por hoje é isso 🙂

 

Nos vemos amanhã neste mesmo site 😀