Полное руководство: как читать файлы csv с помощью pandas


Файлы CSV (значения, разделенные запятыми) являются одним из наиболее распространенных способов хранения данных.

К счастью, функция pandas read_csv() позволяет вам легко читать CSV-файлы на Python практически в любом формате.

В этом руководстве объясняется несколько способов чтения файлов CSV в Python с использованием следующего файла CSV с именем «data.csv» :

 playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22

Пример 1. Считайте CSV-файл в DataFrame pandas.

Следующий код показывает, как прочитать CSV-файл в DataFrame pandas:

 #import CSV file as DataFrame
df = pd. read_csv ('data.csv')

#view DataFrame
df

        playerID team points
0 1 Lakers 26
1 2 Mavs 19
2 3 Bucks 24
3 4 Spurs 22

Пример 2. Чтение определенных столбцов из файла CSV.

Следующий код показывает, как читать только столбцы с пометками «playerID» и «очки» из CSV-файла в DataFrame pandas:

 #import only specific columns from CSV file
df = pd. read_csv ('data.csv', usecols=[' playerID ',' points '])

#view DataFrame
df

	playerID points
0 1 26
1 2 19
2 3 24
3 4 22

Вы также можете указать индексы столбцов для чтения в DataFrame pandas:

 #import only specific columns from CSV file
df = pd. read_csv (' data.csv ', usecols=[ 0,1 ])

#view DataFrame
df

        playerID team
0 1 Lakers
1 2 Mavs
2 3 Bucks
3 4 Spurs

Пример 3. Укажите строку заголовка при импорте файла CSV.

В некоторых случаях строка заголовка может не быть первой строкой в файле CSV.

Например, рассмотрим следующий файл CSV, в котором строка заголовка фактически отображается во второй строке:

 random,data,values
playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22

Чтобы прочитать этот CSV-файл в DataFrame pandas, мы можем указать header=1 следующим образом:

 #import from CSV file and specify that header starts on second row
df = pd. read_csv ('data.csv', header= 1 )

#view DataFrame
df

        playerID team points
0 1 Lakers 26
1 2 Mavs 19
2 3 Bucks 24
3 4 Spurs 22

Пример 4. Пропуск строк при импорте файла CSV.

Вы также можете легко пропускать строки при импорте файла CSV, используя аргумент jumprows .

Например, следующий код показывает, как игнорировать вторую строку при импорте файла CSV:

 #import from CSV file and skip second row
df = pd. read_csv ('data.csv', skiprows=[ 1 ] )

#view DataFrame
df

        playerID team points
0 2 Mavs 19
1 3 Bucks 24
2 4 Spurs 22

Следующий код показывает, как игнорировать вторую и третью строки при импорте файла CSV:

 #import from CSV file and skip second and third rows
df = pd. read_csv ('data.csv', skiprows=[ 1,2 ] )

#view DataFrame
df

        playerID team points
1 3 Bucks 24
2 4 Spurs 22

Пример 5. Чтение файлов CSV с пользовательским разделителем

Иногда у вас может быть файл CSV с разделителем, отличным от запятой.

Например, предположим, что наш CSV-файл имеет подчеркивание в качестве разделителя:

 playerID_team_points
1_Lakers_26
2_Mavs_19
3_Bucks_24
4_Spurs_22

Чтобы прочитать этот CSV-файл в pandas, мы можем использовать аргумент sep , чтобы указать разделитель, который будет использоваться при чтении файла:

 #import from CSV file and specify delimiter to use
df = pd. read_csv ('data.csv', sep=' _ ')

#view DataFrame
df

	playerID team points
0 1 Lakers 26
1 2 Mavs 19
2 3 Bucks 24
3 4 Spurs 22

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи panda:

Как прочитать текстовый файл с помощью Pandas
Как читать файлы Excel с помощью Pandas
Как читать файлы TSV с помощью Pandas
Как читать HTML-таблицы с помощью Pandas

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *