Pandas ဖြင့် html ဇယားများကိုဖတ်နည်း (ဥပမာတစ်ခုအပါအဝင်)
ပန်ဒါ DataFrame တွင် HTML ဇယားများကိုဖတ်ရန် pandas read_html() လုပ်ဆောင်ချက်ကို သင်သုံးနိုင်သည်။
ဤလုပ်ဆောင်ချက်သည် အောက်ပါအခြေခံ syntax ကိုအသုံးပြုသည်-
df = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ')
အောက်ပါဥပမာသည် ဤ Wikipedia စာမျက်နှာမှ NBA အဖွဲ့အမည်များဇယားကို ဖတ်ရန် ဤလုပ်ဆောင်ချက်ကို အသုံးပြုနည်းကို ပြသထားသည်။
ဥပမာ- Pandas ဖြင့် HTML ဇယားကို ဖတ်ပါ။
read_html() လုပ်ဆောင်ချက်ကို အသုံးမပြုမီ၊ သင်သည် lxml ကို ထည့်သွင်းရန် လိုအပ်ပေလိမ့်မည်။
pip install lxml
မှတ်ချက် – အကယ်၍ သင်သည် Jupyter မှတ်စုစာအုပ်ကို အသုံးပြုနေပါက၊ ဤထည့်သွင်းမှုကို လုပ်ဆောင်ပြီးနောက် kernel ကို ပြန်လည်စတင်ရပါမည်။
ထို့နောက်၊ ဤ Wikipedia စာမျက်နှာ ရှိ HTML ဇယားတစ်ခုစီကို ဖတ်ရန် read_html() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။
import pandas as pd import numpy as np import matplotlib. pyplot as plt from unicodedata import normalize #read all HTML tables from specific URL tabs = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ') #display total number of tables read len (tabs) 44
ဤစာမျက်နှာပေါ်တွင် စုစုပေါင်း HTML ဇယား ၄၄ ခုကို တွေ့ရှိနိုင်သည်။
ကျွန်ုပ်စိတ်ဝင်စားသောဇယားတွင် “ Division” ဟူသော စကားလုံးပါရှိသည်ကို ကျွန်ုပ်သိသောကြောင့် ကျွန်ုပ်သည် ဤစကားလုံးပါရှိသော HTML ဇယားများကိုသာ ပြန်လည်ရယူရန် တူညီသော အငြင်းအခုံ ကို အသုံးပြုနိုင်ပါသည်။
#read HTML tables from specific URL with the word "Division" in them
tabs = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ',
match=' Division ')
#display total number of tables read
len (tabs)
1
ထို့နောက် ဇယားကော်လံများ၏ အမည်များကို စာရင်းပြုစု နိုင်သည်-
#define table
df = tabs[0]
#list all column names of table
list (df)
[('Division', 'Eastern Conference'),
('Team', 'Eastern Conference'),
('Location', 'Eastern Conference'),
('Arena', 'Eastern Conference'),
('Capacity', 'Eastern Conference'),
('Coordinates', 'Eastern Conference'),
('Founded', 'Eastern Conference'),
('Joined', 'Eastern Conference'),
('Unnamed: 8_level_0', 'Eastern Conference')]
ကျွန်ုပ်သည် ပထမကော်လံနှစ်ခုကိုသာ စိတ်ဝင်စားပါသည်၊ ထို့ကြောင့် ကျွန်ုပ်သည် ဤကော်လံများသာပါဝင်ရန် DataFrame ကို စစ်ထုတ် နိုင်ပါသည်။
#filter DataFrame to only contain first two columns
df_final = df. iloc [:, 0:2]
#rename columns
df_final. columns = [' Division ', ' Team ']
#view first few rows of final DataFrame
print ( df_final.head ())
Division Team
0 Atlantic Boston Celtics
1 Atlantic Brooklyn Nets
2 Atlantic New York Knicks
3 Atlantic Philadelphia 76ers
4 Atlantic Toronto Raptors
နောက်ဆုံးဇယားတွင် “ ဌာနခွဲ” နှင့် “ အဖွဲ့” ကော်လံများသာပါရှိသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ပန်ဒါရှိ အခြားဖိုင်အမျိုးအစားများကို မည်သို့ဖတ်ရမည်ကို ရှင်းပြသည်-
Pandas ဖြင့် စာသားဖိုင်ကို ဖတ်နည်း
Pandas ဖြင့် Excel ဖိုင်များကိုဖတ်နည်း
Pandas နဲ့ CSV ဖိုင်တွေကို ဘယ်လိုဖတ်မလဲ။