Pandas: como usar o equivalente a np.where()
Você pode usar a função NumPy Where() para atualizar rapidamente os valores de um array NumPy usando a lógica if-else.
Por exemplo, o código a seguir mostra como atualizar valores em um array NumPy que atenda a uma determinada condição:
import numpy as np #create NumPy array of values x = np. array ([1, 3, 3, 6, 7, 9]) #update valuesin array based on condition x = np. where ((x < 5) | (x > 8), x/2, x) #view updated array x array([0.5, 1.5, 1.5, 6. , 7. , 4.5])
Se um determinado valor da tabela for menor que 5 ou maior que 8, dividimos o valor por 2.
Caso contrário, deixamos o valor inalterado.
Podemos realizar uma operação semelhante em um DataFrame do pandas usando a função pandaswhere() , mas a sintaxe é um pouco diferente.
Aqui está a sintaxe básica usando a função NumPywhere():
x = np. where (condition, value_if_true, value_if_false)
E aqui está a sintaxe básica usando a função pandaswhere():
df[' col '] = (value_if_false). where (condition, value_if_true)
O exemplo a seguir mostra como usar a função pandaswhere() na prática.
Exemplo: o equivalente a np.where() em Pandas
Suponha que temos o seguinte DataFrame do pandas:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' A ': [18, 22, 19, 14, 14, 11, 20, 28],
' B ': [5, 7, 7, 9, 12, 9, 9, 4]})
#view DataFrame
print (df)
AB
0 18 5
1 22 7
2 19 7
3 14 9
4 14 12
5 11 9
6 20 9
7 28 4
Podemos usar a seguinte função pandaswhere() para atualizar os valores na coluna A com base em uma condição específica:
#update values in column A based on condition
df[' A '] = (df[' A '] / 2). where (df[' A '] < 20, df[' A '] * 2)
#view updated DataFrame
print (df)
AB
0 9.0 5
1 44.0 7
2 9.5 7
3 7.0 9
4 7.0 12
5 5.5 9
6 40.0 9
7 56.0 4
Se um determinado valor na coluna A fosse menor que 20, multiplicamos o valor por 2.
Caso contrário , dividimos o valor por 2.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras operações comuns em pandas:
Pandas: Como contar valores em uma coluna com condição
Pandas: Como excluir linhas no DataFrame com base na condição
Pandas: como substituir valores em uma coluna com base na condição