web counter


https://www.amazon.it/dp/B0CT9YL557

We support WINRAR [What is this] - [Download .exe file(s) for Windows]

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
SITEMAP
Audiobooks by Valerio Di Stefano: Single Download - Complete Download [TAR] [WIM] [ZIP] [RAR] - Alphabetical Download  [TAR] [WIM] [ZIP] [RAR] - Download Instructions

Make a donation: IBAN: IT36M0708677020000000008016 - BIC/SWIFT:  ICRAITRRU60 - VALERIO DI STEFANO or
Privacy Policy Cookie Policy Terms and Conditions
Wikipedysta:Tawbot - Wikipedia, wolna encyklopedia

Wikipedysta:Tawbot

Z Wikipedii

Aktualne wydarzenia: /Poprawa linków na przekierowania

Tawbot to napisany przez Tawa w perlu bot który będzie się zajmował różnymi masowymi edycjami i zmianami.

Konto Tawbot ma ustawioną flagę bot, dzięki czemu nie widać go w ostatnich zmianach, pomimo że jest jednym z najaktywniejszych wikipedystów.

Tawbot nie jest żadnym konkretnym programem tylko zbiorem procedur na różne okazje, z których montuje w miarę potrzeby boty. Niestety oznacza to, że nie bardzo da się opublikować pełne źródła, gdyż takich właściwie nie ma.

Z oryginalnego kodu chyba nic nie zostało, tak szybko się on zmienia ...

Aktualny kod Tawbota jest tutaj — http://svn.gna.org/svn/tawbot/

Fajnym dodatkiem do Tawbota jest chyba HTTP proxy, które wypisuje na standardowym wyjściu, jakie artykuły Wikipedii odwiedziłem, dzięki czemu mogę je szybko przekleić myszką do części bota zajmującej się rekategoryzacją. Kod poniżej. Moja konsola jest ustawiona na Unikod, jeśli ktoś ma konsolę w innym kodowaniu, należy wykomentować linijkę dokonującą konwersji.

Image:Original_Barnstar.png Image:Minor_Barnstar.png Image:Barnstar_of_Reversion2.png image:Barnstar-stone2-noback.png Image:Barnstar-atom3.png Image:Wiki_medal.jpg Grafika:WikiThanks.png

[edytuj] Proxy

#!/usr/bin/perl -w

use HTTP::Daemon;
use HTTP::Status;
use HTTP::Response;
use HTTP::Request;
use HTTP::Request::Common;
use LWP;

sub get_url
{
    my ($url) = @_;
    my $ua = LWP::UserAgent->new;
    $ua->agent("Mozilla/5.0 (compatible; Opera)");
    my $res = $ua->request(GET $url);
    unless($res->is_success) {
        ""
    }  else {
        $res->content
    }
}


sub get_from_wikipedia
{ # no changes are needed
    get_url(@_);
}

my $d = HTTP::Daemon->new() or die;
print "URL: ", $d->url, "\n";
while(my $c = $d->accept) {
    next if fork;
    my $r = $c->get_request;
    if($r->method ne 'GET')
    {
        $c->send_error(RC_FORBIDDEN);
    } else {
        my $path = $r->url->path;
        my $cnt;
        if($path eq "/favicon.ico")
        {
            $c->send_error(RC_FORBIDDEN);
            next;
        } elsif($path eq "/") {
            $cnt = get_from_wikipedia("http://pl.wikipedia.org/");
        } elsif ($path =~ m@^/wiki/(.*)$@) {
            my ($apath,$xpath) = ($1,$1);
            $xpath =~ s/%(..)/sprintf "%c", hex($1)/ge; # Konwertuj %XX na Unikod
            print "ARTICLE $xpath\n";
            $cnt = get_from_wikipedia("http://pl.wikipedia.org/wiki/$apath");
        } elsif ($path =~ m@^/(.*)$@) {
            $cnt = get_from_wikipedia("http://pl.wikipedia.org/$1");
        } else {
            $c->send_error(RC_FORBIDDEN);
            next;
        }
        my $res = HTTP::Response->new;
        $res->code(200);
        $res->content($cnt);
        $c->send_response($res);
    }
    close $c;
    exit;
}

[edytuj] Pobierz listę artykułów danej kategorii

Poniższy kod oczywiście nie działa jak trzeba, dobry jest w repozytorium ;-)

wget http://pl.wikipedia.org/wiki/Kategoria:Informatyka --cookies=off --header "Cookie: Ciacho" -U 'Mozilla/5.0 (compatible; Opera)' -o /dev/null -O - | perl -nle 'print $1 if m@^<li><a href="/wiki/(.*?)"@' | perl -ple 's/%(..)/sprintf "%c", hex($1)/ge' >Lista-artykułów-kategorii-informatyka

Ciacho można skopiować logując się uczciwie i sprawdzając jakie ciacho wysyła przeglądarka za pomocą programu tcpflow (albo na tysiąc innych sposobów – lepiej być jednak zalogowanym, bo niezalogowani mają więcej problemów z cache'em.

User-Agent jest lewy, bo wget jest zbanowany (to celowo jest ustawione w ten sposób, takie małe security through obscurity). Dalej wycięcie listy artykułów (i podkategorii) danej kategorii, i konwersja na unikod (można pominąć).

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Sub-domains

CDRoms - Magnatune - Librivox - Liber Liber - Encyclopaedia Britannica - Project Gutenberg - Wikipedia 2008 - Wikipedia 2007 - Wikipedia 2006 -

Other Domains

https://www.classicistranieri.it - https://www.ebooksgratis.com - https://www.gutenbergaustralia.com - https://www.englishwikipedia.com - https://www.wikipediazim.com - https://www.wikisourcezim.com - https://www.projectgutenberg.net - https://www.projectgutenberg.es - https://www.radioascolto.com - https://www.debitoformtivo.it - https://www.wikipediaforschools.org - https://www.projectgutenbergzim.com