Pandas ဖြင့် html ဇယားများကိုဖတ်နည်း (ဥပမာတစ်ခုအပါအဝင်)


ပန်ဒါ DataFrame တွင် HTML ဇယားများကိုဖတ်ရန် pandas read_html() လုပ်ဆောင်ချက်ကို သင်သုံးနိုင်သည်။

ဤလုပ်ဆောင်ချက်သည် အောက်ပါအခြေခံ syntax ကိုအသုံးပြုသည်-

 df = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ')

အောက်ပါဥပမာသည် ဤ Wikipedia စာမျက်နှာမှ NBA အဖွဲ့အမည်များဇယားကို ဖတ်ရန် ဤလုပ်ဆောင်ချက်ကို အသုံးပြုနည်းကို ပြသထားသည်။

ဥပမာ- Pandas ဖြင့် HTML ဇယားကို ဖတ်ပါ။

read_html() လုပ်ဆောင်ချက်ကို အသုံးမပြုမီ၊ သင်သည် lxml ကို ထည့်သွင်းရန် လိုအပ်ပေလိမ့်မည်။

 pip install lxml

မှတ်ချက် – အကယ်၍ သင်သည် Jupyter မှတ်စုစာအုပ်ကို အသုံးပြုနေပါက၊ ဤထည့်သွင်းမှုကို လုပ်ဆောင်ပြီးနောက် kernel ကို ပြန်လည်စတင်ရပါမည်။

ထို့နောက်၊ ဤ Wikipedia စာမျက်နှာ ရှိ HTML ဇယားတစ်ခုစီကို ဖတ်ရန် read_html() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

 import pandas as pd
import numpy as np
import matplotlib. pyplot as plt
from unicodedata import normalize

#read all HTML tables from specific URL
tabs = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ')

#display total number of tables read
len (tabs)

44

ဤစာမျက်နှာပေါ်တွင် စုစုပေါင်း HTML ဇယား ၄၄ ခုကို တွေ့ရှိနိုင်သည်။

ကျွန်ုပ်စိတ်ဝင်စားသောဇယားတွင် “ Division” ဟူသော စကားလုံးပါရှိသည်ကို ကျွန်ုပ်သိသောကြောင့် ကျွန်ုပ်သည် ဤစကားလုံးပါရှိသော HTML ဇယားများကိုသာ ပြန်လည်ရယူရန် တူညီသော အငြင်းအခုံ ကို အသုံးပြုနိုင်ပါသည်။

 #read HTML tables from specific URL with the word "Division" in them
tabs = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ',
                    match=' Division ')

#display total number of tables read
len (tabs)

1

ထို့နောက် ဇယားကော်လံများ၏ အမည်များကို စာရင်းပြုစု နိုင်သည်-

 #define table
df = tabs[0]

#list all column names of table
list (df)

[('Division', 'Eastern Conference'),
 ('Team', 'Eastern Conference'),
 ('Location', 'Eastern Conference'),
 ('Arena', 'Eastern Conference'),
 ('Capacity', 'Eastern Conference'),
 ('Coordinates', 'Eastern Conference'),
 ('Founded', 'Eastern Conference'),
 ('Joined', 'Eastern Conference'),
 ('Unnamed: 8_level_0', 'Eastern Conference')]

ကျွန်ုပ်သည် ပထမကော်လံနှစ်ခုကိုသာ စိတ်ဝင်စားပါသည်၊ ထို့ကြောင့် ကျွန်ုပ်သည် ဤကော်လံများသာပါဝင်ရန် DataFrame ကို စစ်ထုတ် နိုင်ပါသည်။

 #filter DataFrame to only contain first two columns
df_final = df. iloc [:, 0:2]

#rename columns
df_final. columns = [' Division ', ' Team ']

#view first few rows of final DataFrame
print ( df_final.head ())

   Division Team
0 Atlantic Boston Celtics
1 Atlantic Brooklyn Nets
2 Atlantic New York Knicks
3 Atlantic Philadelphia 76ers
4 Atlantic Toronto Raptors

နောက်ဆုံးဇယားတွင် “ ဌာနခွဲ” နှင့် “ အဖွဲ့” ကော်လံများသာပါရှိသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ပန်ဒါရှိ အခြားဖိုင်အမျိုးအစားများကို မည်သို့ဖတ်ရမည်ကို ရှင်းပြသည်-

Pandas ဖြင့် စာသားဖိုင်ကို ဖတ်နည်း
Pandas ဖြင့် Excel ဖိုင်များကိုဖတ်နည်း
Pandas နဲ့ CSV ဖိုင်တွေကို ဘယ်လိုဖတ်မလဲ။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်