Przeglądałem dokumentację projektową na uruchomieniu — kilkanaście plików, mix skanów i PDFów z tekstu. Na pierwszy rzut oka wyglądają tak samo. Pod spodem to dwa różne światy. Ktoś wgrywa plik i dostaje wynik gorszy niż kolega przy podobnym projekcie — i nie wie czemu.
Dlatego wyjaśniam to tutaj, konkretnie i raz.
Dwa typy PDF — dwa różne światy
Każdy plik PDF który masz na dysku należy do jednej z dwóch kategorii. Od tego zależy, jak trudno wyciągnąć z niego dane i jakiego confidence możesz się spodziewać po konwersji.
Typ 1: PDF z tekstu (warstwowy)
Powstaje kiedy ktoś eksportuje dokument bezpośrednio z programu: Norma, Rodos, AutoCAD, Revit, Excel, Word. Tabela w środku to prawdziwy tekst — każdy znak ma swoje miejsce w pliku, jest metadaną, można go zaznaczyć, skopiować, przeszukać.
Dla silnika OCR: najłatwiejsza klasa. Czyta tekst tak jak ty czytasz zdania — litera po literze, kolumna po kolumnie. Błędy zdarzają się głównie przy niestandardowych fontach lub tabelach z nieregularną strukturą.
Typ 2: Skan (obraz wewnątrz PDF)
Powstaje kiedy ktoś drukuje dokument, a potem skanuje go i zapisuje jako PDF. Albo kiedy fotograf dokumentacji na budowie robi zdjęcie kartki. Albo kiedy stary kosztorys z lat 90. przeżył tylko w postaci papierowej i ktoś go zeskanował.
Wewnątrz pliku: obraz, nie tekst. Silnik OCR widzi piksele i musi odgadnąć, który piksel to litera, która sekwencja pikseli to cyfra, gdzie kończy się jedna kolumna, a zaczyna następna. Przy dobrym skanie (300+ DPI, prosta tabela, bez zagięć kartki) — radzi sobie bardzo dobrze. Przy złym skanie — zaczyna zgadywać.
PDF z tekstu
Średni confidence. Tekst jest — automat go czyta.
Słaby skan
Piksele zamiast znaków. Więcej pól wymaga weryfikacji.
Te liczby to nie teoria. Na 34 plikach testowych Liczydła — elektryczne, HVAC, niskoprądowe, różne formaty i lata — ten podział wychodził konsekwentnie. PDFy z programu dawały wyniki powyżej 98%. Skany z wyraźnym drukiem — 92-96%. Skany ze zmarszczoną kartką lub rozmazanym tuszem — poniżej 85%.
Test Ctrl+C: 10 sekund i wiesz wszystko
Zanim wgrasz plik do jakiegokolwiek narzędzia, możesz sprawdzić jego typ samodzielnie. Zajmuje to 10 sekund i nie wymaga żadnego oprogramowania poza przeglądarką PDF.
Drugi wariant testu: naciśnij Ctrl+F i wyszukaj słowo które widzisz na stronie. PDF z tekstu znajdzie je natychmiast i podświetli. Skan nic nie znajdzie — funkcja wyszukiwania nie działa, bo nie ma warstwy tekstowej.
Jaki wpływ to ma na konwersję?
Wpływ jest konkretny i przewidywalny. Nie losowy. Przy PDFach z tekstu — kolumny lp, opis, jm, ilość wyciągają się prawie zawsze w 100%. Przy skanach sytuacja zależy od kilku czynników.
Co decyduje o jakości skanu?
- Rozdzielczość. Minimum 200 DPI żeby silnik w ogóle dobrze rozróżniał znaki. Powyżej 300 DPI: wyniki jak przy PDF z tekstu. Poniżej 150 DPI: problemy z cyframi, myloną literą O z zerem, literą l z cyfrą 1.
- Geometria strony. Kartka zeskanowana idealnie prosto — łatwo. Kartka zagięta, wkładana pod kątem — linie tabeli są krzywe, granice kolumn się przesuwają. Silnik myli kolumny.
- Jakość druku oryginału. Wyblakły atrament, blada matryca igłowa, zamazany toner. Każdy piksel mniej — jeden znak więcej do zgadnięcia.
- Kolumna "Ilość". Najkrytyczniejsze pole w kosztorysie. Na plikach testowych Liczydła ilości wyciągamy poprawnie w 100% przy PDFach z tekstu i w około 94% przy skanach dobrej jakości. Przy słabych skanach — to właśnie ilość najczęściej dostaje żółte podświetlenie Confidence Score.
Confidence Score: twój system wczesnego ostrzegania
Każde pole w wygenerowanym Excelu ma przypisany poziom pewności. Pola gdzie automat był pewny co odczytał — zostają białe. Pola gdzie była wątpliwość — podświetlają się na żółto.
Żółte pole to nie błąd. To sygnał: "Sprawdź mnie zanim wyślesz wycenę." Masz je mieć przed oczami, a nie odkryć przypadkiem przy porównaniu z klientem.
W praktyce przy PDF z tekstu żółtych pól jest minimalnie — głównie przy niestandardowych opisach pozycji z komentarzami w nawiasach albo przy bardzo długich nazwach materiałów. Przy dobrym skanie pojawia się ich kilka, głównie w kolumnie ilości. Przy słabym skanie jest ich więcej i przeglądanie zajmuje kilka minut — ale i tak wielokrotnie krócej niż ręczne przepisywanie całej tabeli.
Jak poprawić jakość skanu przed konwersją?
Jeśli masz stare dokumenty papierowe i skanujesz je sam, kilka zasad daje natychmiastowy efekt:
- Ustaw skaner na minimum 300 DPI. Przy 600 DPI wyniki są lepsze ale plik jest cięższy — 300 DPI to dobry kompromis dla kosztorysów.
- Wyrównaj kartkę. Zagięty róg albo fałda to prosta droga do przesuniętych kolumn. Wyprostuj kartkę ręcznie przed położeniem na szybie.
- Kontrast: dokument powinien być czarny na białym tle. Jeśli papier jest żółty od starości — w ustawieniach skanera podnieś kontrast i jasność tła.
- Format: skanuj do PDF bez kompresji (lub PNG) zamiast JPG. Kompresja JPEG rozmywa krawędzie liter i cyfr.
- Sprawdź przed wysłaniem: otwórz skan i na ekranie oceń czy cyfry są czytelne. Jeśli Ty ledwo je czytasz — automat też będzie miał problem.
Praktyczne podsumowanie: trzy klasy plików
Na podstawie 34 plików testowych można wydzielić trzy klasy z przewidywalnymi wynikami:
- Klasa A — PDF cyfrowy (z programu): confidence >98%, żółtych pól minimalnie, czas weryfikacji 1-2 minuty. Wgrywa się, pobiera Excel, sprawdza żółte pola, wychodzi.
- Klasa B — Skan dobrej jakości (300+ DPI, prosta tabela): confidence 90-96%, kilka żółtych pól w kolumnie ilości, weryfikacja 5-10 minut. Wciąż wielokrotnie szybciej niż ręczne przepisywanie.
- Klasa C — Skan słabej jakości (niskie DPI, zniszczony druk, zagięcia): confidence poniżej 85%, więcej żółtych pól, dłuższa weryfikacja. Uruchamia Gwarancję Inżynierską jeśli wynik jest nieakceptowalny.
Klasa C to mniej niż 10% dokumentów które widziałem w projektach instalacyjnych w Polsce. Większość firm ma PDFy z tekstu albo przyzwoite skany. Jeśli nie wiesz do której klasy należy Twój plik — pierwsza strona jest gratis, sprawdzisz bez ryzyka.
Sprawdź klasę swojego pliku — za darmo
Wgraj PDF. Pierwsza strona gratis. W 30 sekund wiesz jaki jest confidence i ile żółtych pól wymaga weryfikacji. Dopiero potem decydujesz czy płacisz za resztę.
SPRAWDŹ SWÓJ PLIK →BLIK · Karta · Przelewy24 · Plik usuwany po konwersji · 29 PLN netto za plik
Więcej o błędach które niszczą kosztorys niezależnie od jakości pliku — stawki KNR, normy narzutu, miedź po aktualnych cenach → Błędy przy wycenie materiałów: KNR, stawki 2026 i skąd bierze się dziura w marży. Ile kosztuje firma każda godzina ręcznego przepisywania — z wyliczeniami → Dlaczego ręczne kosztorysowanie to najdroższy sport w Twojej firmie?.