O guia definitivo: como ler arquivos csv com pandas


Arquivos CSV (valores separados por vírgula) são uma das formas mais comuns de armazenar dados.

Felizmente, a função read_csv() do pandas permite que você leia facilmente arquivos CSV em Python em quase qualquer formato desejado.

Este tutorial explica várias maneiras de ler arquivos CSV em Python usando o seguinte arquivo CSV chamado “data.csv” :

 playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22

Exemplo 1: Leia o arquivo CSV no DataFrame do pandas

O código a seguir mostra como ler o arquivo CSV em um DataFrame do pandas:

 #import CSV file as DataFrame
df = pd. read_csv ('data.csv')

#view DataFrame
df

        playerID team points
0 1 Lakers 26
1 2 Mavs 19
2 3 Bucks 24
3 4 Spurs 22

Exemplo 2: Ler colunas específicas de um arquivo CSV

O código a seguir mostra como ler apenas as colunas denominadas “playerID” e “points” do arquivo CSV em um DataFrame do pandas:

 #import only specific columns from CSV file
df = pd. read_csv ('data.csv', usecols=[' playerID ',' points '])

#view DataFrame
df

	playerID points
0 1 26
1 2 19
2 3 24
3 4 22

Você também pode especificar índices de coluna para ler em um DataFrame do pandas:

 #import only specific columns from CSV file
df = pd. read_csv (' data.csv ', usecols=[ 0,1 ])

#view DataFrame
df

        playerID team
0 1 Lakers
1 2 Mavs
2 3 Bucks
3 4 Spurs

Exemplo 3: Especifique a linha do cabeçalho ao importar um arquivo CSV

Em alguns casos, a linha do cabeçalho pode não ser a primeira linha de um arquivo CSV.

Por exemplo, considere o seguinte arquivo CSV no qual a linha do cabeçalho realmente aparece na segunda linha:

 random,data,values
playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22

Para ler este arquivo CSV em um DataFrame do pandas, podemos especificar header=1 da seguinte forma:

 #import from CSV file and specify that header starts on second row
df = pd. read_csv ('data.csv', header= 1 )

#view DataFrame
df

        playerID team points
0 1 Lakers 26
1 2 Mavs 19
2 3 Bucks 24
3 4 Spurs 22

Exemplo 4: Ignorar linhas ao importar um arquivo CSV

Você também pode pular linhas facilmente ao importar um arquivo CSV usando o argumento skiprows .

Por exemplo, o código a seguir mostra como ignorar a segunda linha ao importar o arquivo CSV:

 #import from CSV file and skip second row
df = pd. read_csv ('data.csv', skiprows=[ 1 ] )

#view DataFrame
df

        playerID team points
0 2 Mavs 19
1 3 Bucks 24
2 4 Spurs 22

E o código a seguir mostra como ignorar a segunda e terceira linhas ao importar o arquivo CSV:

 #import from CSV file and skip second and third rows
df = pd. read_csv ('data.csv', skiprows=[ 1,2 ] )

#view DataFrame
df

        playerID team points
1 3 Bucks 24
2 4 Spurs 22

Exemplo 5: Leia arquivos CSV com um delimitador personalizado

Às vezes você pode ter um arquivo CSV com um delimitador diferente de vírgula.

Por exemplo, suponha que nosso arquivo CSV tenha um sublinhado como delimitador:

 playerID_team_points
1_Lakers_26
2_Mavs_19
3_Bucks_24
4_Spurs_22

Para ler este arquivo CSV no pandas, podemos usar o argumento sep para especificar o delimitador a ser usado ao ler o arquivo:

 #import from CSV file and specify delimiter to use
df = pd. read_csv ('data.csv', sep=' _ ')

#view DataFrame
df

	playerID team points
0 1 Lakers 26
1 2 Mavs 19
2 3 Bucks 24
3 4 Spurs 22

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns do panda:

Como ler um arquivo de texto com Pandas
Como ler arquivos Excel com Pandas
Como ler arquivos TSV com Pandas
Como ler tabelas HTML com Pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *