Skan czy PDF z tekstu? Jak sprawdzić swój kosztorys przed konwersją

Przeglądałem dokumentację projektową na uruchomieniu — kilkanaście plików, mix skanów i PDFów z tekstu. Na pierwszy rzut oka wyglądają tak samo. Pod spodem to dwa różne światy. Ktoś wgrywa plik i dostaje wynik gorszy niż kolega przy podobnym projekcie — i nie wie czemu.

Dlatego wyjaśniam to tutaj, konkretnie i raz.

Dwa typy PDF — dwa różne światy

Każdy plik PDF który masz na dysku należy do jednej z dwóch kategorii. Od tego zależy, jak trudno wyciągnąć z niego dane i jakiego confidence możesz się spodziewać po konwersji.

Typ 1: PDF z tekstu (warstwowy)

Powstaje kiedy ktoś eksportuje dokument bezpośrednio z programu: Norma, Rodos, AutoCAD, Revit, Excel, Word. Tabela w środku to prawdziwy tekst — każdy znak ma swoje miejsce w pliku, jest metadaną, można go zaznaczyć, skopiować, przeszukać.

Dla silnika OCR: najłatwiejsza klasa. Czyta tekst tak jak ty czytasz zdania — litera po literze, kolumna po kolumnie. Błędy zdarzają się głównie przy niestandardowych fontach lub tabelach z nieregularną strukturą.

Typ 2: Skan (obraz wewnątrz PDF)

Powstaje kiedy ktoś drukuje dokument, a potem skanuje go i zapisuje jako PDF. Albo kiedy fotograf dokumentacji na budowie robi zdjęcie kartki. Albo kiedy stary kosztorys z lat 90. przeżył tylko w postaci papierowej i ktoś go zeskanował.

Wewnątrz pliku: obraz, nie tekst. Silnik OCR widzi piksele i musi odgadnąć, który piksel to litera, która sekwencja pikseli to cyfra, gdzie kończy się jedna kolumna, a zaczyna następna. Przy dobrym skanie (300+ DPI, prosta tabela, bez zagięć kartki) — radzi sobie bardzo dobrze. Przy złym skanie — zaczyna zgadywać.

PDF z tekstu

98,7%

Średni confidence. Tekst jest — automat go czyta.

Słaby skan

71–85%

Piksele zamiast znaków. Więcej pól wymaga weryfikacji.

Te liczby to nie teoria. Na 34 plikach testowych Liczydła — elektryczne, HVAC, niskoprądowe, różne formaty i lata — ten podział wychodził konsekwentnie. PDFy z programu dawały wyniki powyżej 98%. Skany z wyraźnym drukiem — 92-96%. Skany ze zmarszczoną kartką lub rozmazanym tuszem — poniżej 85%.

Test Ctrl+C: 10 sekund i wiesz wszystko

Zanim wgrasz plik do jakiegokolwiek narzędzia, możesz sprawdzić jego typ samodzielnie. Zajmuje to 10 sekund i nie wymaga żadnego oprogramowania poza przeglądarką PDF.

Test Ctrl+C Otwórz plik w przeglądarce PDF (Adobe, Edge, Foxit, cokolwiek). Spróbuj zaznaczyć tekst w tabeli i skopiować go. Jeśli tekst daje się zaznaczyć normalnie — masz PDF z tekstu. Jeśli zaznaczenie jest niemożliwe albo zaznacza cały prostokąt jak obraz — masz skan.

Drugi wariant testu: naciśnij Ctrl+F i wyszukaj słowo które widzisz na stronie. PDF z tekstu znajdzie je natychmiast i podświetli. Skan nic nie znajdzie — funkcja wyszukiwania nie działa, bo nie ma warstwy tekstowej.

Jaki wpływ to ma na konwersję?

Wpływ jest konkretny i przewidywalny. Nie losowy. Przy PDFach z tekstu — kolumny lp, opis, jm, ilość wyciągają się prawie zawsze w 100%. Przy skanach sytuacja zależy od kilku czynników.

Co decyduje o jakości skanu?

Rozdzielczość. Minimum 200 DPI żeby silnik w ogóle dobrze rozróżniał znaki. Powyżej 300 DPI: wyniki jak przy PDF z tekstu. Poniżej 150 DPI: problemy z cyframi, myloną literą O z zerem, literą l z cyfrą 1.
Geometria strony. Kartka zeskanowana idealnie prosto — łatwo. Kartka zagięta, wkładana pod kątem — linie tabeli są krzywe, granice kolumn się przesuwają. Silnik myli kolumny.
Jakość druku oryginału. Wyblakły atrament, blada matryca igłowa, zamazany toner. Każdy piksel mniej — jeden znak więcej do zgadnięcia.
Kolumna "Ilość". Najkrytyczniejsze pole w kosztorysie. Na plikach testowych Liczydła ilości wyciągamy poprawnie w 100% przy PDFach z tekstu i w około 94% przy skanach dobrej jakości. Przy słabych skanach — to właśnie ilość najczęściej dostaje żółte podświetlenie Confidence Score.

Confidence Score: twój system wczesnego ostrzegania

Każde pole w wygenerowanym Excelu ma przypisany poziom pewności. Pola gdzie automat był pewny co odczytał — zostają białe. Pola gdzie była wątpliwość — podświetlają się na żółto.

Żółte pole to nie błąd. To sygnał: "Sprawdź mnie zanim wyślesz wycenę." Masz je mieć przed oczami, a nie odkryć przypadkiem przy porównaniu z klientem.

W praktyce przy PDF z tekstu żółtych pól jest minimalnie — głównie przy niestandardowych opisach pozycji z komentarzami w nawiasach albo przy bardzo długich nazwach materiałów. Przy dobrym skanie pojawia się ich kilka, głównie w kolumnie ilości. Przy słabym skanie jest ich więcej i przeglądanie zajmuje kilka minut — ale i tak wielokrotnie krócej niż ręczne przepisywanie całej tabeli.

Bardzo słaby skan - co wtedy? Jeśli Twój plik ma bardzo niską jakość skanu (zagniecenia, blady druk, skrzywiona tabela) i wynik konwersji jest nieakceptowalny — uruchamia się Gwarancja Inżynierska: poprawiam ten plik ręcznie w 24 godziny lub zwracam 100% pieniędzy. Nie tracisz nic.

Jak poprawić jakość skanu przed konwersją?

Jeśli masz stare dokumenty papierowe i skanujesz je sam, kilka zasad daje natychmiastowy efekt:

Ustaw skaner na minimum 300 DPI. Przy 600 DPI wyniki są lepsze ale plik jest cięższy — 300 DPI to dobry kompromis dla kosztorysów.
Wyrównaj kartkę. Zagięty róg albo fałda to prosta droga do przesuniętych kolumn. Wyprostuj kartkę ręcznie przed położeniem na szybie.
Kontrast: dokument powinien być czarny na białym tle. Jeśli papier jest żółty od starości — w ustawieniach skanera podnieś kontrast i jasność tła.
Format: skanuj do PDF bez kompresji (lub PNG) zamiast JPG. Kompresja JPEG rozmywa krawędzie liter i cyfr.
Sprawdź przed wysłaniem: otwórz skan i na ekranie oceń czy cyfry są czytelne. Jeśli Ty ledwo je czytasz — automat też będzie miał problem.

Praktyczne podsumowanie: trzy klasy plików

Na podstawie 34 plików testowych można wydzielić trzy klasy z przewidywalnymi wynikami:

Klasa A — PDF cyfrowy (z programu): confidence >98%, żółtych pól minimalnie, czas weryfikacji 1-2 minuty. Wgrywa się, pobiera Excel, sprawdza żółte pola, wychodzi.
Klasa B — Skan dobrej jakości (300+ DPI, prosta tabela): confidence 90-96%, kilka żółtych pól w kolumnie ilości, weryfikacja 5-10 minut. Wciąż wielokrotnie szybciej niż ręczne przepisywanie.
Klasa C — Skan słabej jakości (niskie DPI, zniszczony druk, zagięcia): confidence poniżej 85%, więcej żółtych pól, dłuższa weryfikacja. Uruchamia Gwarancję Inżynierską jeśli wynik jest nieakceptowalny.

Klasa C to mniej niż 10% dokumentów które widziałem w projektach instalacyjnych w Polsce. Większość firm ma PDFy z tekstu albo przyzwoite skany. Jeśli nie wiesz do której klasy należy Twój plik — pierwsza strona jest gratis, sprawdzisz bez ryzyka.

Sprawdź klasę swojego pliku — za darmo

Wgraj PDF. Pierwsza strona gratis. W 30 sekund wiesz jaki jest confidence i ile żółtych pól wymaga weryfikacji. Dopiero potem decydujesz czy płacisz za resztę.

SPRAWDŹ SWÓJ PLIK →

BLIK · Karta · Przelewy24 · Plik usuwany po konwersji · 29 PLN netto za plik

Więcej o błędach które niszczą kosztorys niezależnie od jakości pliku — stawki KNR, normy narzutu, miedź po aktualnych cenach → Błędy przy wycenie materiałów: KNR, stawki 2026 i skąd bierze się dziura w marży. Ile kosztuje firma każda godzina ręcznego przepisywania — z wyliczeniami → Dlaczego ręczne kosztorysowanie to najdroższy sport w Twojej firmie?.