KOSZTORYSOWANIE · 06.03.2026 · 7 MIN CZYTANIA

Skan czy PDF z tekstu?
Jak sprawdzić swój kosztorys
przed konwersją

Nie każdy PDF to ten sam problem. Skan to zdjęcie tabeli — automat widzi piksele i musi zgadywać. PDF z tekstu to dane gotowe do wyciągnięcia. Sprawdź swój plik w 10 sekund i wiesz, czego się spodziewać.

Przeglądałem dokumentację projektową na uruchomieniu — kilkanaście plików, mix skanów i PDFów z tekstu. Na pierwszy rzut oka wyglądają tak samo. Pod spodem to dwa różne światy. Ktoś wgrywa plik i dostaje wynik gorszy niż kolega przy podobnym projekcie — i nie wie czemu.

Dlatego wyjaśniam to tutaj, konkretnie i raz.

Dwa typy PDF — dwa różne światy

Każdy plik PDF który masz na dysku należy do jednej z dwóch kategorii. Od tego zależy, jak trudno wyciągnąć z niego dane i jakiego confidence możesz się spodziewać po konwersji.

Typ 1: PDF z tekstu (warstwowy)

Powstaje kiedy ktoś eksportuje dokument bezpośrednio z programu: Norma, Rodos, AutoCAD, Revit, Excel, Word. Tabela w środku to prawdziwy tekst — każdy znak ma swoje miejsce w pliku, jest metadaną, można go zaznaczyć, skopiować, przeszukać.

Dla silnika OCR: najłatwiejsza klasa. Czyta tekst tak jak ty czytasz zdania — litera po literze, kolumna po kolumnie. Błędy zdarzają się głównie przy niestandardowych fontach lub tabelach z nieregularną strukturą.

Typ 2: Skan (obraz wewnątrz PDF)

Powstaje kiedy ktoś drukuje dokument, a potem skanuje go i zapisuje jako PDF. Albo kiedy fotograf dokumentacji na budowie robi zdjęcie kartki. Albo kiedy stary kosztorys z lat 90. przeżył tylko w postaci papierowej i ktoś go zeskanował.

Wewnątrz pliku: obraz, nie tekst. Silnik OCR widzi piksele i musi odgadnąć, który piksel to litera, która sekwencja pikseli to cyfra, gdzie kończy się jedna kolumna, a zaczyna następna. Przy dobrym skanie (300+ DPI, prosta tabela, bez zagięć kartki) — radzi sobie bardzo dobrze. Przy złym skanie — zaczyna zgadywać.

PDF z tekstu

98,7%

Średni confidence. Tekst jest — automat go czyta.

Słaby skan

71–85%

Piksele zamiast znaków. Więcej pól wymaga weryfikacji.

Te liczby to nie teoria. Na 34 plikach testowych Liczydła — elektryczne, HVAC, niskoprądowe, różne formaty i lata — ten podział wychodził konsekwentnie. PDFy z programu dawały wyniki powyżej 98%. Skany z wyraźnym drukiem — 92-96%. Skany ze zmarszczoną kartką lub rozmazanym tuszem — poniżej 85%.

Test Ctrl+C: 10 sekund i wiesz wszystko

Zanim wgrasz plik do jakiegokolwiek narzędzia, możesz sprawdzić jego typ samodzielnie. Zajmuje to 10 sekund i nie wymaga żadnego oprogramowania poza przeglądarką PDF.

Test Ctrl+C Otwórz plik w przeglądarce PDF (Adobe, Edge, Foxit, cokolwiek). Spróbuj zaznaczyć tekst w tabeli i skopiować go. Jeśli tekst daje się zaznaczyć normalnie — masz PDF z tekstu. Jeśli zaznaczenie jest niemożliwe albo zaznacza cały prostokąt jak obraz — masz skan.

Drugi wariant testu: naciśnij Ctrl+F i wyszukaj słowo które widzisz na stronie. PDF z tekstu znajdzie je natychmiast i podświetli. Skan nic nie znajdzie — funkcja wyszukiwania nie działa, bo nie ma warstwy tekstowej.

Jaki wpływ to ma na konwersję?

Wpływ jest konkretny i przewidywalny. Nie losowy. Przy PDFach z tekstu — kolumny lp, opis, jm, ilość wyciągają się prawie zawsze w 100%. Przy skanach sytuacja zależy od kilku czynników.

Co decyduje o jakości skanu?

  1. Rozdzielczość. Minimum 200 DPI żeby silnik w ogóle dobrze rozróżniał znaki. Powyżej 300 DPI: wyniki jak przy PDF z tekstu. Poniżej 150 DPI: problemy z cyframi, myloną literą O z zerem, literą l z cyfrą 1.
  2. Geometria strony. Kartka zeskanowana idealnie prosto — łatwo. Kartka zagięta, wkładana pod kątem — linie tabeli są krzywe, granice kolumn się przesuwają. Silnik myli kolumny.
  3. Jakość druku oryginału. Wyblakły atrament, blada matryca igłowa, zamazany toner. Każdy piksel mniej — jeden znak więcej do zgadnięcia.
  4. Kolumna "Ilość". Najkrytyczniejsze pole w kosztorysie. Na plikach testowych Liczydła ilości wyciągamy poprawnie w 100% przy PDFach z tekstu i w około 94% przy skanach dobrej jakości. Przy słabych skanach — to właśnie ilość najczęściej dostaje żółte podświetlenie Confidence Score.

Confidence Score: twój system wczesnego ostrzegania

Każde pole w wygenerowanym Excelu ma przypisany poziom pewności. Pola gdzie automat był pewny co odczytał — zostają białe. Pola gdzie była wątpliwość — podświetlają się na żółto.

Żółte pole to nie błąd. To sygnał: "Sprawdź mnie zanim wyślesz wycenę." Masz je mieć przed oczami, a nie odkryć przypadkiem przy porównaniu z klientem.

W praktyce przy PDF z tekstu żółtych pól jest minimalnie — głównie przy niestandardowych opisach pozycji z komentarzami w nawiasach albo przy bardzo długich nazwach materiałów. Przy dobrym skanie pojawia się ich kilka, głównie w kolumnie ilości. Przy słabym skanie jest ich więcej i przeglądanie zajmuje kilka minut — ale i tak wielokrotnie krócej niż ręczne przepisywanie całej tabeli.

Bardzo słaby skan - co wtedy? Jeśli Twój plik ma bardzo niską jakość skanu (zagniecenia, blady druk, skrzywiona tabela) i wynik konwersji jest nieakceptowalny — uruchamia się Gwarancja Inżynierska: poprawiam ten plik ręcznie w 24 godziny lub zwracam 100% pieniędzy. Nie tracisz nic.

Jak poprawić jakość skanu przed konwersją?

Jeśli masz stare dokumenty papierowe i skanujesz je sam, kilka zasad daje natychmiastowy efekt:

  1. Ustaw skaner na minimum 300 DPI. Przy 600 DPI wyniki są lepsze ale plik jest cięższy — 300 DPI to dobry kompromis dla kosztorysów.
  2. Wyrównaj kartkę. Zagięty róg albo fałda to prosta droga do przesuniętych kolumn. Wyprostuj kartkę ręcznie przed położeniem na szybie.
  3. Kontrast: dokument powinien być czarny na białym tle. Jeśli papier jest żółty od starości — w ustawieniach skanera podnieś kontrast i jasność tła.
  4. Format: skanuj do PDF bez kompresji (lub PNG) zamiast JPG. Kompresja JPEG rozmywa krawędzie liter i cyfr.
  5. Sprawdź przed wysłaniem: otwórz skan i na ekranie oceń czy cyfry są czytelne. Jeśli Ty ledwo je czytasz — automat też będzie miał problem.

Praktyczne podsumowanie: trzy klasy plików

Na podstawie 34 plików testowych można wydzielić trzy klasy z przewidywalnymi wynikami:

Klasa C to mniej niż 10% dokumentów które widziałem w projektach instalacyjnych w Polsce. Większość firm ma PDFy z tekstu albo przyzwoite skany. Jeśli nie wiesz do której klasy należy Twój plik — pierwsza strona jest gratis, sprawdzisz bez ryzyka.

Sprawdź klasę swojego pliku — za darmo

Wgraj PDF. Pierwsza strona gratis. W 30 sekund wiesz jaki jest confidence i ile żółtych pól wymaga weryfikacji. Dopiero potem decydujesz czy płacisz za resztę.

SPRAWDŹ SWÓJ PLIK →

BLIK · Karta · Przelewy24  ·  Plik usuwany po konwersji  ·  29 PLN netto za plik

Więcej o błędach które niszczą kosztorys niezależnie od jakości pliku — stawki KNR, normy narzutu, miedź po aktualnych cenach → Błędy przy wycenie materiałów: KNR, stawki 2026 i skąd bierze się dziura w marży. Ile kosztuje firma każda godzina ręcznego przepisywania — z wyliczeniami → Dlaczego ręczne kosztorysowanie to najdroższy sport w Twojej firmie?.