So extrahieren sie in pandas eine zahl aus einer zeichenfolge
Sie können die folgende grundlegende Syntax verwenden, um Zahlen aus einer Zeichenfolge in Pandas zu extrahieren:
df[' my_column ']. str . extract (' (\d+) ')
Diese spezielle Syntax extrahiert die Zahlen aus jeder Zeichenfolge in eine Spalte namens my_column in einem Pandas-DataFrame.
Hinweis : Bei Verwendung eines regulären Ausdrucks steht \d für „beliebige Ziffer“ und + für „eine oder mehrere“.
Das folgende Beispiel zeigt, wie Sie diese Funktion in der Praxis nutzen können.
Beispiel: Extrahieren Sie die Zahl aus einer Zeichenfolge in Pandas
Angenommen, wir haben den folgenden Pandas-DataFrame, der Informationen über den Verkauf verschiedener Produkte enthält:
import pandas as pd #createDataFrame df = pd. DataFrame ({' product ': ['A33', 'B34', 'A22', 'A50', 'C200', 'D7', 'A9', 'A13'], ' sales ': [18, 22, 19, 14, 14, 11, 20, 28]}) #view DataFrame print (df) product sales 0 A33 18 1 B34 22 2 A22 19 3 A50 14 4 C200 14 5 D7 11 6 A9 20 7 A13 28
Angenommen, wir möchten die Nummer jeder Zeichenfolge aus der Produktspalte extrahieren.
Wir können dazu die folgende Syntax verwenden:
#extract numbers from strings in 'product' column
df[' product ']. str . extract (' (\d+) ')
0
0 33
1 34
2 22
3 50
4,200
5 7
6 9
7 13
Das Ergebnis ist ein DataFrame, der nur die Zahlen in jeder Zeile der Produktspalte enthält.
Zum Beispiel:
- Die Formel extrahiert 33 aus der Zeichenfolge A33 in der ersten Zeile.
- Die Formel extrahiert 34 aus der Zeichenfolge B34 in der ersten Zeile.
- Die Formel extrahiert 22 aus der Zeichenfolge A22 in der ersten Zeile.
Und so weiter.
Wenn Sie möchten, können Sie diese numerischen Werte auch in einer neuen Spalte des DataFrame speichern:
#extract numbers from strings in 'product' column and store them in new column
df[' product_numbers '] = df[' product ']. str . extract (' (\d+) ')
#view updated DataFrame
print (df)
product sales product_numbers
0 A33 18 33
1 B34 22 34
2 A22 19 22
3 A50 14 50
4 C200 14,200
5 D7 11 7
6 A9 20 9
7 A13 28 13
Die neue Spalte namens „product_numbers“ enthält nur die Zahlen für jede Zeichenfolge in der Produktspalte .
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:
Pandas: So sortieren Sie DataFrame basierend auf der Zeichenfolgenspalte
Pandas: So entfernen Sie bestimmte Zeichen aus Zeichenfolgen
Pandas: Suchen Sie in allen Spalten von DataFrame nach einer Zeichenfolge