Pandas: ігнорувати перший стовпець під час імпортування файлу csv
Ви можете використовувати наступний базовий синтаксис, щоб ігнорувати перший стовпець під час імпортування файлу CSV у pandas DataFrame:
with open (' basketball_data.csv ') as x: ncols = len ( x.readline (). split (' , ')) df = pd. read_csv (' basketball_data.csv ', usecols= range (1,ncols))
Цей конкретний приклад буде читати кожен стовпець файлу CSV під назвою basketball_data.csv у DataFrame pandas, крім першого стовпця.
Використовуючи цей код, ми спочатку знаходимо кількість стовпців у файлі CSV і призначаємо його змінній під назвою ncols .
Далі ми використовуємо аргумент usecols , щоб вказати, що ми хочемо імпортувати лише стовпці між 1 (тобто другим стовпцем) і останнім стовпцем файлу CSV.
У наступному прикладі показано, як використовувати цей синтаксис на практиці.
Приклад: ігноруйте перший стовпець під час імпортування файлу CSV у Pandas
Скажімо, у нас є такий файл CSV під назвою basketball_data.csv :
Ми можемо використати наступний синтаксис, щоб імпортувати файл CSV у pandas DataFrame та ігнорувати перший стовпець:
import pandas as pd #calculate number of columns in CSV file with open (' basketball_data.csv ') as x: ncols = len ( x.readline (). split (' , ')) #import all columns except first column into DataFrame df = pd. read_csv (' basketball_data.csv ', usecols= range (1,ncols)) #view resulting DataFrame print (df) rebound points 0 22 10 1 14 9 2 29 6 3 30 2
Зауважте, що перший стовпець під назвою team було видалено, коли ми імпортували файл CSV у pandas.
Зауважте, що якщо ви заздалегідь знаєте загальну кількість стовпців у файлі CSV, ви можете безпосередньо надати це значення аргументу usecols .
Наприклад, припустімо, що ми вже знаємо, що у файлі CVS є три стовпці.
Ми могли б використати наступний синтаксис, щоб імпортувати файл CSV у pandas DataFrame і ігнорувати перший стовпець:
import pandas as pd #import all columns except first column into DataFrame df = pd. read_csv (' basketball_data.csv ', usecols= range (1,3)) #view resulting DataFrame print (df) rebound points 0 22 10 1 14 9 2 29 6 3 30 2
Зауважте, що перший стовпець під назвою team було видалено, коли ми імпортували файл CSV у pandas.
Оскільки ми вже знали, що у файлі CSV є три стовпці, ми просто використали діапазон (1,3) в аргументі usecols .
Примітка : Ви можете знайти повну документацію функції pandas read_csv() тут .
Додаткові ресурси
У наступних посібниках пояснюється, як виконувати інші типові завдання в Python:
Pandas: як пропускати рядки під час читання файлу CSV
Pandas: Як додати дані до наявного файлу CSV
Pandas: як використовувати read_csv з аргументом usecols