Semalt Expert မှ Chrome Web Scraper သင်ခန်းစာ

အကယ်၍ သင်သည် Google Chrome ကိုအသုံးပြုသည်ဆိုပါကသင်၏ဝက်ဘ်စာမျက်နှာများကိုဖျက်နိုင်ရန်အတွက်သင်၏ browser အတွက် extension တစ်ခုရှိသည်။ ၎င်းကို 'Scrapper' ဟုလူသိများပြီး၎င်းကိုပြproblemsနာမရှိဘဲအသုံးချနိုင်သည်။ Scrapper သည် ၀ က်ဘ်ဆိုက်အကြောင်းအရာများကိုဖျက်ခြင်းနှင့်ရလဒ်များကိုဂူဂယ်လ်စာရွက်စာတမ်းများသို့တင်ခြင်းအတွက်ကူညီလိမ့်မည်။

ဝက်ဘ်ဆိုက်ကိုခြစ်ရာချဲ့ပြီးအသုံးပြုနည်း

၁။ Google Chrome ရှိ Chrome Web Store ကိုရွေးချယ်ပါ။

၂။ Extensions များတွင် 'Scrapper' ကိုရှာဖွေရန်။

၃။ ပထမဆုံးရှာဖွေမှုရလဒ်သည် '' Scrapper '' ဟုလူသိများသည့် extension ဖြစ်သည်။

၄။ 'Add to Chrome' အဖြစ်ဖော်ပြထားသောခလုတ်ကိုရွေးပါ။

၅။ ယူကေအမတ်များစာရင်းသို့ပြန်သွားပါ။

၆။ အောက်ပါ link ကို နှိပ်ပါ။

၇။ လွှတ်တော်အမတ်တစ် ဦး ကိုရှာပါ၊

"Scrape Similar ... " ရွေးစရာကိုရွေးချယ်ရန်ညာဖက်နှိပ်ပါ။

၉။ scrapper အတွက် console သည်အခြား window တစ်ခုတွင်ပေါ်လာလိမ့်မည်။

၁၀။ scraper console တွင်ခြစ်ထားသောအကြောင်းအရာကိုကြည့်ပါ။

၁၁။ အကြောင်းအရာများကို Google Spreadsheet တစ်ခုအဖြစ်သိမ်းဆည်းထားရန်“ Google Docs သို့သိမ်းရန်” ကိုရွေးပါ။

တိုးချဲ့ခြစ်

ဤစာရွက်ကိုမကပ်မီ HTML ၏အခြေခံကိုနားလည်ရန်အသုံးဝင်သည်။ ဥပမာအားဖြင့်၊ ဒီ လင့်ခ် မှတဆင့်နိဒါန်းတိုတစ်ခုကိုသင်ဖတ်နိုင်သည်

ကျွန်တော်တို့ဟာနာမည်ကြီးအီတလီမင်းသမီး Asia Argento ကိုသရုပ်ဆောင်ထားတဲ့ရုပ်ရှင်ကားအားလုံးကိုစိတ်ဝင်စားတယ်ဆိုတာမြင်ယောင်ကြည့်ပါ။

၁။ IMDB တွင်သရုပ်ဆောင်များ၏အသေးစိတ်အချက်အလက်မှတ်တမ်းရှိသည်။ Asia Argento ဆိုဒ်သည် http://www.imdb.com/name/nm0000782/;

၂။ မင်းသမီးမင်းရဲ့အခန်းကဏ္ all အားလုံးကိုကြည့်နိုင်ပါတယ်။ ငါတို့စိတ်ဝင်စားတဲ့သတင်းအချက်အလက်တွေကိုစတင်ဖျက်သိမ်းကြပါစို့။

၃။ အထက်တွင်ဖော်ပြခဲ့သည့်အတိုင်းဖျက်ရန်ကြိုးစားပါ။

၄။ စာရင်းသည်နည်းနည်းလေးပျက်သွားသည်ကိုသင်တွေ့လိမ့်မည်။ ဤသည်ဒီမှာစာရင်းကွဲပြားခြားနားပုံဖော်နိုင်ပါတယ်ဆိုတဲ့အချက်ကိုကြောင့်ဖြစ်။ ,

ခြစ် console ကိုမှ ဦး ခေါင်း။ ဘယ်ဘက်အပေါ်ထောင့်က XPath လို့ခေါ်တဲ့ box လေးကိုတွေ့ရလိမ့်မယ်။

Xpath ဆိုသည်မှာ XML နှင့် HTML အတွက်အလုပ်လုပ်သော query language တစ်ခုဖြစ်သည်။

၇။ XPath သည်သင်စိတ်ဝင်စားသောစာမျက်နှာ၏အစိတ်အပိုင်းများကိုရှာဖွေရန်ကူညီနိုင်သည်။ နောက်တစ်ခုမှာသင့်လျော်သော element တစ်ခုကိုရှာပြီး၎င်းအတွက် XPath ကိုရေးရန်ဖြစ်သည်။

၈။ ငါတို့စားပွဲကိုစီစဉ်ကြစို့။

၉။ သင်လိုအပ်သောအချက်အလက်များအားလုံးရှိသည့်ကျွန်ုပ်တို့၏လက်ရှိ XPath သည် "// div [3] / div [3] / div [2] / div" ဖြစ်ကြောင်းသင်တွေ့လိမ့်မည်။

၁၀။ XPath က HTML doc ကိုကြည့်ရှုရန် System ကိုအကြောင်းကြားပြီးတတိယမြောက် element ကိုရွေးရန်၊ ဒုတိယ element နှင့်ထို့နောက်အားလုံးကိုရွေးချယ်ရန်၊

၁၁။ သို့သော်ကျွန်ုပ်တို့၏အချက်အလက်များကိုသီးခြားခွဲထုတ်လိုသည်။

12. ဤအမှုအရာအတွက်ခြစ်ရန်အတွက် console ရှိကော်လံများအပိုင်းကိုအသုံးချပါ။

၁၃။ ခေါင်းစဉ်ကိုကြည့်ရှုရန်ကျွန်ုပ်တို့၏ခေါင်းစဉ်ကိုအရင်ကြည့်ပါ။ Inspect Element ကိုသုံးပါ။

14. တစ် tag ကိုအတွင်းခေါင်းစဉ်စစ်ဆေးပါ။ XPath ထဲသို့ tag ထည့်ပါ။

၁၅။ ထိုအသုံးအနှုန်းသည်သင့်လျော်စွာအလုပ်လုပ်ပုံရသဖြင့်ကျွန်ုပ်တို့၏ပထမဆုံးကော်လံကိုပြုလုပ်ပါ။

၁၆။ "Columns" အပိုင်းတွင်ပထမကော်လံ၏အမည်ကို "title" နေရာတွင်အစားထိုးလိုက်ပါ။

၁၇။ XPath ကိုထပ်ထည့်ပါ။

၁၈။ column section တွင် XPaths သည်နှိုင်းယှဉ်မှု ဖြစ်၍ "./b" သည် <b> element ကိုရွေးချယ်လိမ့်မည်

ခေါင်းစဉ်ကော်လံအတွက် XPath တွင် "./b" ကိုထည့်။ "ခြစ်" ကိုရွေးချယ်ပါ။

၂၀။ အခုတစ်နှစ်ဆက်သွားကြစို့။ တစ်နှစ်တာအတွင်းနှစ်များကိုတွေ့နိုင်ပါသည်။

၂၁။ သင့်ခေါင်းစဉ်အတွက်ကော်လံဘေးရှိအငယ်စားကိုရွေးချယ်ခြင်းဖြင့်ကော်လံအသစ်တစ်ခုကိုဖန်တီးပါ။

၂၂။ XPath "./span" ကို သုံး၍ "year" အတွက်ကော်လံတစ်ခုဖန်တီးပါ။

၂၃။ ခြစ်ခြစ်ပြီးနှစ်ကိုမည်သို့ထည့်သွင်းသည်ကိုကြည့်ပါ။

၂၄ ။

send email