Web scraping w teorii czyli nie samym kodem człowiek żyje.

web scrapingWeb scraping jest chyba jednym z najważniejszych narzędzi w dobie informacji. Choć zagłębiając się w temat mam wrażenie, że nadal nie jest mocno rozpowszechniony. Dla jednych kojarzy się z indeksowaniem stron, czyli aspektem zdominowanym przez wielkich graczy takich jak google, bing etc. Dla innych web scraping może kojarzyć się z balansowaniem na granicy prawa autorskiego czy wręcz z jego łamaniem.

Web scraping to nic innego jak pozyskiwanie danych bezpośrednio ze strony HTML.

Oczywiście jeśli chcemy sobie zapisać w notatniku jakiś cytat z Wiki to w zupełności wystarczy nam Ctrl+C i Ctrl+V. Jednak w sytuacji kiedy chcemy zarchiwizować sobie jakieś dane czy potrzebujemy dane typu średni kurs NBP dla CHF z ostatnich kilku miesięcy to ręczne kopiowanie jest mało praktyczne. Tu z pomocą przychodzi web scraping.

Często web scraping jest wyłamywaniem otwartych drzwi. Autorzy stron często udostępniają API i nie trzeba specjalnie się męczyć, dostajemy dane usystematyzowane, z kanałem dostępu etc.

Jednak, im bardziej “newralgiczne” dane tym mniej chętnie administratorzy/autorzy chcą te dane “upubliczniać” poza swoją stroną. web scraping newralWynika to przede wszystkim z chęci generowania ruchu u siebie 🙂 jak i kontrolowania tych danych. Może być tak, że jakieś dane po jakimś czasie stają się “niewygodne” wtedy łatwiej je usunąć ze swojego portalu niż naszych dysków :-). Jeszcze innym aspektem przemawiającym za wyższością web scraping’u nad dostępem poprzez API jest fakt, że to o stronę internetową dba się najbardziej bo to jest kanał/wizytówka, która najbardziej interesuje właściciela. Stąd inne kanały dostępu nie istnieją lub są zaniedbane, nie aktualne czy wręcz po zmianach nie działają. Przykładem mogą być portale społecznościowe, kto zetknął się z programowaniem aplikacji dostępowych ten wie co się dzieje po aktualizacji API 🙂 innych odsyłam na fora.

Kolejnymi zaletami web scraping’u jest m.in. brak  limitów odwołań, rzadko się zdarza aby administrator określał limity na dostęp do strony www. Co często ma miejsce poprzez API np. pogodnyki za dostęp do danych poprzez API często ustalają ceny uzależnione od ilości zapytań/połączeń. Tu kolejna zaleta – pewna anonimowość, przy dostępie poprzez API często musimy założyć konto i uzyskać swój numer ID czego nie doświadczamy przy web scraping’u.

web scraping secureJeśli już zainteresował Was temat to chciałbym tu trochę ostudzić zapał i chęci. W web scraping’u nie chodzi o to, żeby wyciągać dane ze wszystkich stron, zapychać łącza i generować nie potrzebny ruch. Przy zbyt nachalnym scrapingu pewnie uaktywnią się jakieś zabezpieczenia np. anty-DDOS lub nasłany zostanie prawnik.

Jest to narzędzie do pozyskiwania określonych danych na potrzeby dalszej ich obróbki np. pod kątem pracy naukowej czy opracowania tematów biznesowych. Może to być dobre narzędzie dziennikarskie, natomiast nie polecam tworzyć kolejnego narzędzia indeksującego strony internetowe :-).

Jest to także efektywniejsza metoda niż pobieranie całych witryn bo tu pobieramy tylko to co nas w danym momencie interesuje np. konkretne zdjęcia, teksty, newsy czy dane statystyczne.

Przy scraping’u trzeba pamiętać o kwestiach prawnych o czym już nadmieniłem prawo web scrapingwcześniej 🙂 . Nie koniecznie możemy sobie stworzyć portal informacyjny na którym wprost przedrukujemy news’y z innych portali. Pewnie wtedy otrzymamy ładny list za potwierdzeniem odbioru tradycyjną pocztą :-). Jako, że temat prawny jest mi słabo znany odsyłam do portalu, który traktuje o tych kwestiach i do Ustawy o prawie autorskim.

Web scraping ostatnio bardzo mnie zainteresował legł nawet u podstaw tego blogu :-). Jest to fajna i rozwijająca zabawa łącząca w sobie różne technologie. Dużo jest jeszcze do zobaczenia, sprawdzenia temat prawny także będzie przedmiotem moich dociekań.

 

 

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Dodaj komentarz