Precz z PDF!

Czy PDF zagraża demokracji? W niektórych okolicznościach tak. Nowa strona sejmowa udostępnia imienne wyniki głosowań tylko w takim formacie. Ilość sejmowych informacji zamkniętych w PDF-ach rośnie zamiast maleć. Narusza to jeśli nie literę, to co najmniej ducha prawa o dostępie do informacji, a nawet może być uznane za rodzaj cenzury.

Wiem, że to dla wielu trudne do pojęcia. Zaraz to skrótowo wyjaśnię. Teraz wspomnę, że ta zmiana to katastrofa dla mnie, dla “Prawdomierza“, ale także, lub wręcz przede wszystkim dla “Sejmometru“. Tam i pewnie w paru innych podobnych portalach świetnie wiedzą, o co chodzi. Mam nadzieję, że reszta mediów zechce problem zrozumieć i pomoże  w akcji sprzeciwu.

PDF świetnie się czyta oczami, ale nie potrafią go czytać narzędzia wyszukiwania. Te lokalne, w twoim kompie, które mają znaleźć jakieś słowa na twoim własnym twardym dysku, i te, którymi google i  inne wyszukiwarki przeszukują sieć i wiedzą to, co wiedzą. A przecież gdy one czegoś nie wiedzą, ty także najczęściej się tego nie dowiesz. Dla nich właściwy format to HTML. Stworzony do zapełniania Internetu treścią.

OK, powyższy akapit to uproszczenie, a nawet kłamstwo. Roboty wyszukiwarek potrafią czytać niektóre pliki PDF. Te muszą jednak spełnić sporo warunków, a to zależy od autora. Z przykrością informuję, że wiele sejmowych PDF-ów tych warunków nie spełnia.

Ja też wiele spraw i zjawisk badam nie “ręcznie”, lecz skryptami php. Same przeszukują zadane strony i znajdują, segregują oraz sumują potrzebne mi informacje. W zasadzie umiem taki skrypt napisać sam, ze trzy nawet napisałem, choć zabiera mi to parę godzin lub dni, więc przyznaję, że najczęściej proszę o pomoc followa. On taki skrypcik pisze w kwadrans.

Ale PDF jest dziś dla mnie nie do przejścia. Szczerze mówiąc nie wiem też, czy follow umiałby napisać skrypt przeszukujący pedeefy bez paru dodatkowych lektur. Powtarzam też, że i tak nie każdy PDF da się tak przeczytać. Każda informacja w formacie PDF jest zatem częściowo tylko, ale jednak ukryta przed publicznością. By ją znaleźć i zanalizować, trzeba wielu tysięcy ręcznych kliknięć. To, co bot zrobi w parę sekund lub minut, człowiekowi zajmie wiele dni albo i tygodni.

Tak, to mocno ogranicza dostęp do informacji: drastycznie zmniejsza możliwość jej analizowania, kondensowania, sumowania. Jak znam życie, Sejmometr ma skrypty, którymi na bieżąco kontrolował np. obecność posłów na głosowaniach, ich “zgodność z linią klubu” itd. Teraz może te skrypty wyrzucić. A to oznacza, że i goście tego portalu zostaną pozbawieni istotnych informacji.

Cztery lata temu Bronisław Komorowski rozpoczął marszałkowanie od spotkania z mediami. Pytał, co chcielibyśmy w Sejmie zmienić. Wygłosiłem wtedy tyradę poświęconą głównie stronie sejmowej. Przez następne lata z umiarkowaną satysfakcją obserwowałem, że to i owo powoli zmienia się na lepsze.

Ale nie w sprawie PDF-ów. Wtedy narzekałem, że całe meritum procesu legislacyjnego (wszystkie druki sejmowe, a więc treść kolejnych postaci projektów ustaw) tkwi w PDF-ach. Tu nic się nie zmieniło. Teraz zamiast postępu mamy regres: nowa porcja informacji przeniesiona została ze sfery pełnej dostępności (HTML) do strefy o dostępności ograniczonej.

Poklikajcie w cyferki w starej wersji, a potem w nowej. I poprzyjcie mój apel: precz z PDF w Sejmie!

PS. Godz. 20:05 – problem PDF-ów jako całość nie zniknął, ale ten post na szczęście jest już… nieaktualny 🙂 Pisałem to godzinę. W międzyczasie ktoś coś na nowej stronie poprawił i oto imienne wyniki głosowań otwierają się już jako HTML 🙂 Aczkolwiek dla “Sejmometru” to mała pociecha, bo format strony jest inny niż dotąd i skrypty i tak trzeba pisać na nowo…

PS. Godz. 20:15 – prostuję: jedne wyniki są w HTML, inne wciąż w PDF. Bałagan jak cholera. Chcę wierzyć, że to pierwsze koty za płoty, ale na razie żaden robot nie da rady.

9 thoughts on “Precz z PDF!

  1. No właśnie jakoś mi się tak wydawało, że w niektórych głosowaniach widziałem wyniki i w PDF i w HTML.
    Co do czytania PDF, to powinno dać radę (jest narzędzie pdf2text), oczywiście jeśli spełnia warunki opisane niebieskimi literkami.

    PS.
    Coś trzeba zrobić z tym cache, bo w tej chwili nawet po zalogowaniu nadal pokazuje wersję strony z “You must log in to post a comment”. Tymczasowym obejściem problemu jest dopisanie ?a na końcu URL w pasku adresu.

    1. Ad PS – wszystko trzeba zrobić. Na razie wiem tyle, że dzięki parze zjawisk (1. ustawienie cache’a na maksa, 2. znaczny spadek ruchu na blogu z powodu spadku mojej aktywności) udało mi się uratować hosting przed wypowiedzeniem umowy. Kosztem ustawień absurdalnych, bo cache dotyczy też zalogowanych i nic dziwnego, że po zalogowaniu znów widzisz skaszowaną parę minut wcześniej stronę, więc widniejesz jako niezalogowany. W rzeczywistości jesteś, o czym się dowiesz, jeśli parę minut później stronę odświeżysz, a w międzyczasie nie zajdzie powód, by została skaszowana ponownie…

      Musimy pogadać, co dalej – bez Twojej pomocy nie poradzę.

      1. Musimy pogadać, co dalej – bez Twojej pomocy nie poradzę.

        Bez serwera dedykowanego tu się nie obejdzie.
        Tradycyjnie przypominam o istnieniu bezpłatnego hostingu WordPress.com-u na którym na blogera czekają takie delicje
        jak: brak troski o aktualizację, instalację, bezpieczeństwo, wykonywanie kopii, blog jest na setkach serwerów w zwiazku z czym jest praktycznie niemożłiwe wyłączenie go z powodu przeciążenia sieci, kopiowanie wpisów jest automatyczne.
        Nie znajdziesz w Warszawie firmy, która pozwoliłaby Ci
        Tytanie trzymać blog tekstowy o takim ruchu,(a w półroku będziesz miał taki sam jak na S24) na hoście niededykowanym lub na VPS-ie.

        1. Życzę Leskiemu takiego ruchu, ale na jeszcze jakiś czas sądzę że starczy coś mniejszego niż serwer dedykowany…
          Wordpress.com jest oczywiście jakąś opcją, ale za cenę “wolności”. Rozumiem Leskiego, który woli (jeszcze) powalczyć niż z niej zrezygnować.

          1. Profesjonalny blog prowadzony przez profesjonalnego dziennikarza wymaga profesjonalnego hostu a nie popierdółki za pomocą której mógłby prowadzić bloga zgorzkniały kocur Gizmo.
            Wyjście: no to może dodatkowe pakiety ruchu? Ale ta przyjemność za 100 GB kosztuje 615,00 zł. brutto miesięcznie.

  2. Niech sobie będzie PDF jak ktoś chce drukować i HTML do oglądania. Trzeci powinien być XML. IT Sejmu/Senatu itp może sie zebrać, zaproponować schematy XML do najbardziej popularnych dokumentów, opublikować do zgłaszania sugestii, zatwierdzić wersje 1 i spokój na lata. Nie miałbys problemów z interpretacja HTML jak ktoś doda szlaczek albo przedstawi kolumny. Aż mi sie wierzyć nie chce, ze czegoś takiego jeszcze nie ma. Może udostepniaja XML za pieniądze?

    1. XML – marzenie… Nie dają nawet za pieniądze. Natomiast niektóre dane Sejmometr udostępnia za darmo w formacie JSON (wolałbym XML, ale co tam), choć sam musi te dane zdobyć (wyczytać) za pomocą skryptów, których tworzenie Sejm utrudnia, jak tylko może.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.