Semalt: hoe de python gebruiken om een website te schrapen?

Gegevens spelen een cruciale rol bij onderzoeken, nietwaar? Het kan leiden tot een nieuwe manier van kijken en andere inzichten ontwikkelen. Het meest vervelende is dat de data die je zoekt meestal niet direct beschikbaar is. Je kunt het op internet vinden, maar het is mogelijk niet in een downloadbaar formaat. In dat geval kunt u de webschraaptechniek gebruiken om de benodigde gegevens te programmeren en te verzamelen.

Er zijn verschillende manieren om te schrapen en programmeertalen die u hierbij kunnen helpen. Dit artikel zal u helpen bij het gebruik van de pythontaal om een site te schrappen. U krijgt veel inzicht in de werking van webpagina's. U leert ook hoe ontwikkelaars gegevens op elke website structureren.

Het beste startpunt is om de Anaconda Python Distribution op uw computer te downloaden en te installeren. U kunt ook enkele tutorials volgen over de basis van deze programmeertaal. De beste plaats om te vertrekken zou Codecademy kunnen zijn, vooral als je geen idee hebt op dit gebied.

Deze gids maakt gebruik van de huidige noteringssite van Polk Country voor gevangenen. We zullen je begeleiden bij het gebruik van een Python-script om een lijst met gevangenen te extraheren en wat gegevens te krijgen, zoals de woonplaats en race voor elke gevangene. Het hele script waar we je doorheen zullen leiden is opgeslagen en open op GitHub. Dit is een van de populaire online platforms waarmee computercodes kunnen worden gedeeld. De codes hebben een lange lijst met commentaren die u enorm kunnen helpen.

Bij het scrapen van een site is de eerste tool waarnaar moet worden gezocht een webbrowser. De meeste browsers geven gebruikers HTML-inspectietools die helpen bij het opheffen van de motorruimte en het begrijpen van de paginastructuur. De manier waarop u toegang krijgt tot elke tool verschilt van browser tot browser. De steunpilaar is echter de 'paginabron weergeven' en u kunt deze verkrijgen door rechtstreeks met de rechtermuisknop op de pagina te klikken.

Als u de HTML-bron van de pagina bekijkt, is het raadzaam om de details van de links naar de gevangene in tabelrijen netjes te vermelden. De volgende stap is het schrijven van een script dat we gaan gebruiken om deze informatie te extraheren. De twee Python-pakketten die we gaan gebruiken in het zware hijsproces zijn de mooie soep en verzoeken. Zorg ervoor dat u ze installeert voordat u de code begint uit te voeren.

Het webscraping-script doet drie dingen. Deze omvatten het laden van de vermeldingspagina's en het extraheren van links naar de detailpagina's, het laden van elke detailpagina en het extraheren van gegevens, en het afdrukken van de geëxtraheerde gegevens, afhankelijk van hoe deze wordt gefilterd, zoals de stad van verblijf en ras. Zodra u dit begrijpt, is de volgende stap om het coderingsproces te starten met behulp van de Beautiful Soup and Requests.

Laad eerst logischerwijs de gevangenenlijstpagina met behulp van de requests.get-URL en gebruik vervolgens de prachtige soep om deze te portemonnee. Daarna extraheren we de link naar de detailpagina's door elke rij te doorlopen. Nadat de details van de gevangene zijn geparseerd, is de volgende stap om de waarden voor geslacht, leeftijd, ras, boekingstijd en naam uit het woordenboek te halen. Elke gevangene krijgt zijn woordenboek en alle woordenboeken worden toegevoegd aan de lijst van de gevangene. Loop ten slotte over de race- en stadswaarden voordat u eindelijk uw lijst afdrukt.

send email