O guia definitivo: como ler arquivos csv com pandas
Arquivos CSV (valores separados por vírgula) são uma das formas mais comuns de armazenar dados.
Felizmente, a função read_csv() do pandas permite que você leia facilmente arquivos CSV em Python em quase qualquer formato desejado.
Este tutorial explica várias maneiras de ler arquivos CSV em Python usando o seguinte arquivo CSV chamado “data.csv” :
playerID,team,points 1,Lakers,26 2,Mavs,19 3,Bucks,24 4,Spurs,22
Exemplo 1: Leia o arquivo CSV no DataFrame do pandas
O código a seguir mostra como ler o arquivo CSV em um DataFrame do pandas:
#import CSV file as DataFrame df = pd. read_csv ('data.csv') #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Exemplo 2: Ler colunas específicas de um arquivo CSV
O código a seguir mostra como ler apenas as colunas denominadas “playerID” e “points” do arquivo CSV em um DataFrame do pandas:
#import only specific columns from CSV file df = pd. read_csv ('data.csv', usecols=[' playerID ',' points ']) #view DataFrame df playerID points 0 1 26 1 2 19 2 3 24 3 4 22
Você também pode especificar índices de coluna para ler em um DataFrame do pandas:
#import only specific columns from CSV file df = pd. read_csv (' data.csv ', usecols=[ 0,1 ]) #view DataFrame df playerID team 0 1 Lakers 1 2 Mavs 2 3 Bucks 3 4 Spurs
Exemplo 3: Especifique a linha do cabeçalho ao importar um arquivo CSV
Em alguns casos, a linha do cabeçalho pode não ser a primeira linha de um arquivo CSV.
Por exemplo, considere o seguinte arquivo CSV no qual a linha do cabeçalho realmente aparece na segunda linha:
random,data,values
playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22
Para ler este arquivo CSV em um DataFrame do pandas, podemos especificar header=1 da seguinte forma:
#import from CSV file and specify that header starts on second row df = pd. read_csv ('data.csv', header= 1 ) #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Exemplo 4: Ignorar linhas ao importar um arquivo CSV
Você também pode pular linhas facilmente ao importar um arquivo CSV usando o argumento skiprows .
Por exemplo, o código a seguir mostra como ignorar a segunda linha ao importar o arquivo CSV:
#import from CSV file and skip second row df = pd. read_csv ('data.csv', skiprows=[ 1 ] ) #view DataFrame df playerID team points 0 2 Mavs 19 1 3 Bucks 24 2 4 Spurs 22
E o código a seguir mostra como ignorar a segunda e terceira linhas ao importar o arquivo CSV:
#import from CSV file and skip second and third rows df = pd. read_csv ('data.csv', skiprows=[ 1,2 ] ) #view DataFrame df playerID team points 1 3 Bucks 24 2 4 Spurs 22
Exemplo 5: Leia arquivos CSV com um delimitador personalizado
Às vezes você pode ter um arquivo CSV com um delimitador diferente de vírgula.
Por exemplo, suponha que nosso arquivo CSV tenha um sublinhado como delimitador:
playerID_team_points
1_Lakers_26
2_Mavs_19
3_Bucks_24
4_Spurs_22
Para ler este arquivo CSV no pandas, podemos usar o argumento sep para especificar o delimitador a ser usado ao ler o arquivo:
#import from CSV file and specify delimiter to use df = pd. read_csv ('data.csv', sep=' _ ') #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns do panda:
Como ler um arquivo de texto com Pandas
Como ler arquivos Excel com Pandas
Como ler arquivos TSV com Pandas
Como ler tabelas HTML com Pandas