Python

HTML-koodin jäsentäminen ja kaapiminen Pyqueryn avulla

HTML-koodin jäsentäminen ja kaapiminen Pyqueryn avulla
"Pyquery" on kolmannen osapuolen Python-moduuli, jonka avulla voit jäsentää ja poimia tietoja "xml" - ja "html" -asiakirjoista. Se on saanut inspiraationsa jQuery JavaScript -kirjastosta ja sisältää melkein identtisen syntaksin, jonka avulla voit käyttää useita aputoimintoja ja pikakoodeja jäsentää ja manipuloida asiakirjapuuta. Tämä artikkeli kattaa yksinkertaisen Pyquery-oppaan, joka auttaa sinua aloittamaan moduulin käytön.

Pyörien asennus

Asenna Pyquery Ubuntussa käyttämällä alla määritettyä komentoa:

$ sudo apt asenna python3-pyquery

Voit myös asentaa Pyqueryn uusimman version “pip” -paketinhallinnasta suorittamalla seuraavat kaksi komentoa peräkkäin:

$ sudo apt asenna python3-pip
$ pip3 asenna pyquery

Jos haluat asentaa Pyqueryn muihin Linux-jakeluihin, asenna “pip3” paketinhallinnasta ja suorita toinen yllä mainittu komento.

Parsable Document Tree -puun luominen

Ennen kuin voit jäsentää ja poimia tietoja HTML-dokumentista, sinun on luotava asiakirjapuu. Voit luoda asiakirjapuun yksinkertaisesta HTML-merkinnästä käyttämällä alla olevaa koodinäytettä:

pyquery-tuonnista PyQuery kuten pq
document = pq ("Hei maailma !!")
tulosta (asiakirja)
tulosta (tyyppi (asiakirja))

Ensimmäinen lause tuo ”PyQuery” -luokan “pyquery” -moduulista. Seuraavaksi luodaan uusi PyQuery-luokan esiintymä. Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava tulos:

Hei maailma !!

Huomaa ulostulon toinen rivi. Tässä ”asiakirja”, joka on ”PyQuery” -luokan instanssi, ei palauta merkkijonotyyppistä objektia. Voit nopeasti kysellä kaikkia käytettävissä olevia menetelmiä "asiakirja" -instanssille lisäämällä seuraavan ylimääräisen rivin yllä olevaan koodinäytteeseen:

pyquery-tuonnista PyQuery kuten pq
document = pq ("Hei maailma !!")
tulosta (ohje (asiakirja))

Voit myös selata PyQuery-luokan sovellusliittymää verkossa.

Jos haluat luoda asiakirjapuun URL-osoitteesta, käytä seuraavaa koodia (korvaa URL-osoite omalla haluamallasi osoitteella):

pyquery-tuonnista PyQuery kuten pq
document = pq (url = 'https: // esimerkki.com ')
tulosta (asiakirja)

Luo asiakirjapuun muotoinen paikallinen HTML-tiedosto käyttämällä alla olevaa koodia (korvaa "tiedostonimi" arvo tarpeidesi mukaan):

pyquery-tuonnista PyQuery kuten pq
document = pq (tiedostonimi = 'hakemisto.html ')
tulosta (asiakirja)

Nyt kun sinulla on asiakirjapuu, voit aloittaa sen jäsentämisen.

Asiakirjapuun käsittely

Voit purkaa tietoja ja käsitellä asiakirjapuita useilla eri tavoilla. Jotkut yleisimmistä menetelmistä on lueteltu alla näytteiden kanssa. Katso kaikki käytettävissä olevat menetelmät täältä saatavasta sovellusliittymästä.

Voit käyttää "text" -menetelmää saadaksesi elementin tekstisisällön:

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei maailma !!

")
p = asiakirja ('p')
tulosta (s.teksti())

Voit valita tietyn tunnisteen / elementin toimittamalla sen nimen argumenttina "asiakirja" -instanssille. Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava tulos:

Hei maailma !!

Voit saada tagin määritteet käyttämällä "attr" -menetelmää. Voit tehdä niin valitsemalla tagin, jonka haluat jäsentää (tässä tapauksessa 'p') ja antamalla attribuutin nimen argumenttina (tässä tapauksessa 'id') tai käyttämällä pistemerkintää.

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei maailma !!

")
p = asiakirja ('p')
tulosta (asiakirja)
tulosta (s.attr ("id"), s.attr.id)

Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava lähtö:

Hei maailma !!

Voit manipuloida CSS: ää "css" -menetelmällä. CSS-tyylien lisääminen kohteeseen

tai mitä tahansa muuta tunnistetta, voit käyttää seuraavaa koodia:

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei maailma !!

")
p = asiakirja ('p')
s.css ("väri": "punainen")
tulosta (asiakirja)
tulosta (s.attr ("tyyli"))

Korvaa "" color ":" red "" osa omilla mukautetuilla tyylilläsi. Kun olet suorittanut yllä olevan koodinäytteen, sinun on hankittava seuraava tulos ja voit varmistaa, että CSS: ää on käytetty oikein:

Hei maailma !!


väri punainen

Jos sinulla on ennalta muotoiltu luokka, voit käyttää olemassa olevia tyylejä vain "addClass" -menetelmällä.

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei maailma !!

")
p = asiakirja ('p')
s.addClass ("mystyle")

Voit liittää ja lisätä oman mukautetun merkinnän alla olevan koodinäytteen avulla:

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei maailma !!

")
p = asiakirja ('p')
s.prepend ("

Hei

")
s.liitä ("

Hei hei

")
tulosta (asiakirja)

Korvaa argumentit ”prepend” ja “append” -menetelmissä omilla arvoillasi. Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava lähtö:

Hei

Hei maailma !!

Hei hei

Poista elementin sisältö käyttämällä "tyhjä" -menetelmää.

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei maailma !!

")
p = asiakirja ('p')
s.tyhjä()
tulosta (asiakirja)

Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava tulos:

Voit käyttää suodatinmenetelmää tiettyjen elementtien valitsemiseen, kun samantyyppisiä tunnisteita on useita. Esimerkiksi alla oleva koodi poimii

”-Tunniste, jonka” id ”on” hei ”:

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei

Maailman !!

")
p = asiakirja ('p')
tulosta (s.suodatin ("# hei"))

Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava lähtö:

Hei

Löydät useita tunnisteita / elementtejä kerralla "etsi" -menetelmällä:

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei

Maailman !!

")
tulosta (asiakirja.löytää ('p'))

Anna tagin / elementin nimi argumenttina "etsi" -menetelmälle. Kun olet suorittanut yllä olevan koodinäytteen, sinun pitäisi saada seuraava tulos:

Hei

Maailman !!

Voit vaihtaa xml- ja html-jäsenninten välillä käyttämällä ylimääräistä "jäsentäjä" -argumenttia:

pyquery-tuonnista PyQuery kuten pq
document = pq ("

Hei

Maailman !!

", parser =" html ")
tulosta (asiakirja)

Jos tarvitset lisäapua Pyqueryn suhteen, tutustu sen virallisiin asiakirjoihin ja täältä saataviin esimerkkeihin.

Johtopäätös

PyQueryn avulla voit jäsentää html-asiakirjat nopeasti kirjoittamalla vähimmäiskoodin, koska se sisältää lukuisia auttajatoimintoja, jotka jättävät kokonaan pois tarpeen kirjoittaa mukautettua koodia. Sen jQuery-tyyppinen syntakse ja rakenne auttavat myös valitsemaan elementtejä ja solmuja menemättä syvemmälle dokumenttipuuhun, varsinkin kun sisäkkäisiä merkintöjä on paljon.

How to change Mouse pointer and cursor size, color & scheme on Windows 10
The mouse pointer and cursor in Windows 10 are very important aspects of the operating system. This can be said for other operating systems as well, s...
Ilmaiset ja avoimen lähdekoodin pelimoottorit Linux-pelien kehittämiseen
Tämä artikkeli kattaa luettelon ilmaisista ja avoimen lähdekoodin pelimoottoreista, joita voidaan käyttää 2D- ja 3D-pelien kehittämiseen Linuxissa. Tä...
Shadow of the Tomb Raider for Linux -opetusohjelma
Shadow of the Tomb Raider on kahdestoista lisäys Tomb Raider -sarjaan - toiminta-seikkailupelisarja, jonka on luonut Eidos Montreal. Kriitikot ja fani...