Semalt: HTML-skrabevejledning - Top tip

Webindhold er for det meste i strukturerede eller HTML-formater. Hver side er organiseret på sin unikke måde afhængigt af typen af indhold i den. Hvis nogen ønsker at udtrække webinformation, er det hver persons ønske om at indhente dataene på en struktureret og velorganiseret måde. Dette vil hjælpe med at spare den tid, der kræves til gennemgang, analyse og organisering af dokumentet, inden det deles. Det er dog ikke let at få det strukturerede format, da de fleste websteder ikke tilbyder denne mulighed for at forhindre folk i at udtrække store mængder data. Nogle websteder leverer imidlertid API'erne, som giver folk mulighed for informationsekstraktion i en hurtig og nem proces.

I sådanne begivenheder har du intet andet valg end at bruge hjælp fra en softwareprogrammering kaldet skrabning. Det er en tilgang, der bruger computerprogram, der hjælper brugere med at indsamle information i et nyttigt format og bevare datas struktur.

Lxml og anmodning

Dette er et omfattende skrapebibliotek, der hjælper med at analysere og evaluere XML og HTML hurtigt og hjælper med at spare tid. Det er også nyttigt til at håndtere rodede tags i analyseprocessen. I denne procedure bruger du Lxml-anmodninger snarere end den indbyggede urllib2, da den er hurtigere, robust og let tilgængelig. Det er nemt at installere det ved hjælp af pip install Lxml og pip installeringsanmodninger.

Følg disse trin for HTML-skrabning

Start med import - her importerer du HTML fra Lxml og importerer derefter anmodning. Brug anmodning og spores derefter websiden, der indeholder de data, du vil udtrække, analyser dem ved HTML-modul og gem derefter de parsede data i træet.

Du skal bruge sideindholdet i stedet for tekst, da HTML forventer at modtage input i bytes. Træet, hvor du lagrede dine analyserede data, indeholder nu HTML-dokumentet i en træstruktur. Du kan gå over træstrukturen i forskellige tilgange, XPath og CSSelect.

XPath hjælper dig med at hente information eller få dem i et struktureret format som HTML eller XML. Der er forskellige måder, hvorpå du kan hente XPath-elementerne. Disse inkluderer Firebug til Firefox eller Chrome Inspector. Når du bruger Chrome, er det let at inspicere oplysninger, da du kun behøver at 'højreklikke' på det element, der kræver inspektion, vælg 'Inspekterelement', fremhæv den medfølgende kode, og højreklik derefter og vælg kopi XPath. Denne proces vil hjælpe dig med at vide, hvilke elementer der findes på din side, og derfra er det let at oprette den rigtige XPath-forespørgsel og anvende Lxml XPath korrekt.

Gennemgang af disse trin sikrer, at du har skrabet alle de data, du ønskede at udtrække fra et bestemt web ved hjælp af Lxml og Requests. Du vil have oplysningerne gemt i en to-listen hukommelse, og nu er de klar til sortering. Du kan analysere det ved hjælp af et programmeringssprog som Python eller gemme det og dele det. Det kan også være en god idé at omskrive eller redigere nogle dele af informationen, før du deler dem.