Pandas ဖြင့် html ဇယားများကိုဖတ်နည်း (ဥပမာတစ်ခုအပါအဝင်)

အားဖြင့် Benjamin Anderson ဇူလိုင် 21, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

ပန်ဒါ DataFrame တွင် HTML ဇယားများကိုဖတ်ရန် pandas read_html() လုပ်ဆောင်ချက်ကို သင်သုံးနိုင်သည်။

ဤလုပ်ဆောင်ချက်သည် အောက်ပါအခြေခံ syntax ကိုအသုံးပြုသည်-

 df = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ')

အောက်ပါဥပမာသည် ဤ Wikipedia စာမျက်နှာမှ NBA အဖွဲ့အမည်များဇယားကို ဖတ်ရန် ဤလုပ်ဆောင်ချက်ကို အသုံးပြုနည်းကို ပြသထားသည်။

ဥပမာ- Pandas ဖြင့် HTML ဇယားကို ဖတ်ပါ။

read_html() လုပ်ဆောင်ချက်ကို အသုံးမပြုမီ၊ သင်သည် lxml ကို ထည့်သွင်းရန် လိုအပ်ပေလိမ့်မည်။

 pip install lxml

မှတ်ချက် – အကယ်၍ သင်သည် Jupyter မှတ်စုစာအုပ်ကို အသုံးပြုနေပါက၊ ဤထည့်သွင်းမှုကို လုပ်ဆောင်ပြီးနောက် kernel ကို ပြန်လည်စတင်ရပါမည်။

ထို့နောက်၊ ဤ Wikipedia စာမျက်နှာ ရှိ HTML ဇယားတစ်ခုစီကို ဖတ်ရန် read_html() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

 import pandas as pd
import numpy as np
import matplotlib. pyplot as plt
from unicodedata import normalize

#read all HTML tables from specific URL
tabs = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ')

#display total number of tables read
len (tabs)

44

ဤစာမျက်နှာပေါ်တွင် စုစုပေါင်း HTML ဇယား ၄၄ ခုကို တွေ့ရှိနိုင်သည်။

ကျွန်ုပ်စိတ်ဝင်စားသောဇယားတွင် “ Division” ဟူသော စကားလုံးပါရှိသည်ကို ကျွန်ုပ်သိသောကြောင့် ကျွန်ုပ်သည် ဤစကားလုံးပါရှိသော HTML ဇယားများကိုသာ ပြန်လည်ရယူရန် တူညီသော အငြင်းအခုံ ကို အသုံးပြုနိုင်ပါသည်။

 #read HTML tables from specific URL with the word "Division" in them
tabs = pd. read_html (' https://en.wikipedia.org/wiki/National_Basketball_Association ',
                    match=' Division ')

#display total number of tables read
len (tabs)

1

ထို့နောက် ဇယားကော်လံများ၏ အမည်များကို စာရင်းပြုစု နိုင်သည်-

 #define table
df = tabs[0]

#list all column names of table
list (df)

[('Division', 'Eastern Conference'),
 ('Team', 'Eastern Conference'),
 ('Location', 'Eastern Conference'),
 ('Arena', 'Eastern Conference'),
 ('Capacity', 'Eastern Conference'),
 ('Coordinates', 'Eastern Conference'),
 ('Founded', 'Eastern Conference'),
 ('Joined', 'Eastern Conference'),
 ('Unnamed: 8_level_0', 'Eastern Conference')]

ကျွန်ုပ်သည် ပထမကော်လံနှစ်ခုကိုသာ စိတ်ဝင်စားပါသည်၊ ထို့ကြောင့် ကျွန်ုပ်သည် ဤကော်လံများသာပါဝင်ရန် DataFrame ကို စစ်ထုတ် နိုင်ပါသည်။

 #filter DataFrame to only contain first two columns
df_final = df. iloc [:, 0:2]

#rename columns
df_final. columns = [' Division ', ' Team ']

#view first few rows of final DataFrame
print ( df_final.head ())

   Division Team
0 Atlantic Boston Celtics
1 Atlantic Brooklyn Nets
2 Atlantic New York Knicks
3 Atlantic Philadelphia 76ers
4 Atlantic Toronto Raptors

နောက်ဆုံးဇယားတွင် “ ဌာနခွဲ” နှင့် “ အဖွဲ့” ကော်လံများသာပါရှိသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ပန်ဒါရှိ အခြားဖိုင်အမျိုးအစားများကို မည်သို့ဖတ်ရမည်ကို ရှင်းပြသည်-

Pandas ဖြင့် စာသားဖိုင်ကို ဖတ်နည်း
Pandas ဖြင့် Excel ဖိုင်များကိုဖတ်နည်း
Pandas နဲ့ CSV ဖိုင်တွေကို ဘယ်လိုဖတ်မလဲ။

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။

ဥပမာ- Pandas ဖြင့် HTML ဇယားကို ဖတ်ပါ။

ထပ်လောင်းအရင်းအမြစ်များ

စာရေးသူအကြောင်း

Benjamin Anderson

မှတ်ချက်တစ်ခုထည့်ပါ။