Pandas: ігнорувати перший стовпець під час імпортування файлу csv


Ви можете використовувати наступний базовий синтаксис, щоб ігнорувати перший стовпець під час імпортування файлу CSV у pandas DataFrame:

 with open (' basketball_data.csv ') as x:
    ncols = len ( x.readline (). split (' , '))

df = pd. read_csv (' basketball_data.csv ', usecols= range (1,ncols))

Цей конкретний приклад буде читати кожен стовпець файлу CSV під назвою basketball_data.csv у DataFrame pandas, крім першого стовпця.

Використовуючи цей код, ми спочатку знаходимо кількість стовпців у файлі CSV і призначаємо його змінній під назвою ncols .

Далі ми використовуємо аргумент usecols , щоб вказати, що ми хочемо імпортувати лише стовпці між 1 (тобто другим стовпцем) і останнім стовпцем файлу CSV.

У наступному прикладі показано, як використовувати цей синтаксис на практиці.

Приклад: ігноруйте перший стовпець під час імпортування файлу CSV у Pandas

Скажімо, у нас є такий файл CSV під назвою basketball_data.csv :

Ми можемо використати наступний синтаксис, щоб імпортувати файл CSV у pandas DataFrame та ігнорувати перший стовпець:

 import pandas as pd

#calculate number of columns in CSV file
with open (' basketball_data.csv ') as x:
    ncols = len ( x.readline (). split (' , '))

#import all columns except first column into DataFrame
df = pd. read_csv (' basketball_data.csv ', usecols= range (1,ncols))

#view resulting DataFrame
print (df)

   rebound points
0 22 10
1 14 9
2 29 6
3 30 2

Зауважте, що перший стовпець під назвою team було видалено, коли ми імпортували файл CSV у pandas.

Зауважте, що якщо ви заздалегідь знаєте загальну кількість стовпців у файлі CSV, ви можете безпосередньо надати це значення аргументу usecols .

Наприклад, припустімо, що ми вже знаємо, що у файлі CVS є три стовпці.

Ми могли б використати наступний синтаксис, щоб імпортувати файл CSV у pandas DataFrame і ігнорувати перший стовпець:

 import pandas as pd

#import all columns except first column into DataFrame
df = pd. read_csv (' basketball_data.csv ', usecols= range (1,3))

#view resulting DataFrame
print (df)

   rebound points
0 22 10
1 14 9
2 29 6
3 30 2

Зауважте, що перший стовпець під назвою team було видалено, коли ми імпортували файл CSV у pandas.

Оскільки ми вже знали, що у файлі CSV є три стовпці, ми просто використали діапазон (1,3) в аргументі usecols .

Примітка : Ви можете знайти повну документацію функції pandas read_csv() тут .

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в Python:

Pandas: як пропускати рядки під час читання файлу CSV
Pandas: Як додати дані до наявного файлу CSV
Pandas: як використовувати read_csv з аргументом usecols

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *