niedziela, 6 grudnia 2020

TIF do JPG z zachowaniem EXIF + OCR

I. TIF do JPG

Konwersja plików TIF do JPG z zachowaniem metadanych EXIF w programie Irfan View.

1. Otwórz pierwszy plik TIF w IrfanView
2. Z menu Plik wybierz Przetwarzanie wsadowe (seryjne)

Ustaw algorytm konwersji dla następujących ustawień:

Wykonuj:
Wsadowa (seryjna) KONWERSJA

Ustawienia wsadowej konwersji:
Format wyjściowy:
JPG 

OPCJE: 
JAKOŚĆ 100%
zaznacz:
Zachowaj pierwotne dane EXIF (w JPG)
Zachowaj pierwotne dane IPTC
Zachowaj pierwotny komentarz JPG
Zachowaj pierwotne dane XMP
Zachowaj pierwotne jakość JPG (szacunkowo) 

Katalog docelowy:
wskaż nowy katalog, np. JPG_testy

Pliki źródłowe:
Dodaj wszystkie

START

Zachowaj pliki JPG na kolejne zajęcia.

3. Sprawdź, czy pliki zostały poprawnie skonwertowane i  posiadają metadane (Irfan View - klawisz I)

II. OCR

Dla dociekliwych:
Analiza porównawcza wybranych programów do optycznego rozpoznawania tekstu
Porównanie oprogramowania do optycznego rozpoznawania znaków

A. Ćwiczenia z Google Drive (tylko JPG)

1. Skonwertuj pliki TIF do JPG za pomocą dowolnego programu (XnView, FastStone, IrfanView). Uwaga 1: Google nie dokona odczytu OCR plików TIF
Uwaga 2: Skany muszą być wcześniej odpowiednio wykadrowane - zob. TU . Nie zmieniaj ich rozdzielczości. Poziom kompresji ustal na 0%. Zachowaj dane EXIF.

2. Zaloguj się na swoje konto w google.com i przejdź na Dysk Google https://drive.google.com/
3. Załóż folder, np. tytuł dokumentu
4. Wczytaj hurtowo pliki JPG do tego folderu (np. przenieść i upuść)
5. Kliknij na wybrany plik prawym przyciskiem myszy i wybierz Otwórz w:-> Dokumenty Google
6. Gdy dokument się otworzy. Pod grafiką znajdziesz rozpoznany tekst z pliku (jeśli skan zawiera tekst)
7. Popraw błędy słowne. Kliknij w menu Narzędzia -> Pisownia i gramatyka -> Sprawdzanie pisowni i gramatyki.  
8. Pobierz plik na dysk lokalny w formacie RTF, DOC, TXT lub epub

Wykonaj testy na kilku skanach, w tym:
- na skanach, które nie zostały "rozcięte"
- na skanach, które posiadają obrazki
- na skanach, które są kolorowe
- na pliku PDF

Eksperymentuj.
Co zaobserwowałeś?

B. Ćwiczenia z programem FreeOCR.net (TIF i JPG)

Wersja instalacyjna:

A. Pobierz i zainstaluj program
B. Open - wczytaj plik TIF/JPG
C. OCR - Language - wybierz pol

D. Wybierz: Start OCR
E. Wybierz: Export as RTF

Zwróć uwagę na funkcje:
Remove Line Breaks
Text Post Processing  (możesz skorygować niektóre znaki)

Uwaga: pliki graficzne możesz poddawać OCR tylko dla pojedynczych skanów. Jeśli chcesz rozpoznać cały dokument, musisz przekształcić plik w PDF.

C. Ćwiczenia z konwerterami on-line OCR

Wejdź na stronę: https://www.onlineocr.net/pl/
Wczytaj plik TIF/JPG
Wybierz język i format wyjściowy
Skopiuj tekst do edytor tekstu

Wejdź na stronę: https://img2txt.com/pl
Wczytaj plik JPG
Wybierz język
Skopiuj tekst do edytor tekstu

-----
Porównaj wyniki OCR z punktów A, B i C. Prześlij wykładowcy próbki OCR (dla 2 różnych skanów) w 1 pliku (MS Word). Opatrz je krótkim komentarzem (plusy/minusy) w formie wniosków. 

10 komentarzy:

  1. fajny program! na pewno wiele ułatwia. Ja z dokumentami nie mam wiele wspólnego, ich przechowywaniem i archiwizacją w firmie zajmują się https://www.archiwizacjadokumentow.com.pl/. To ważne zadanie i nie ma tu miejsca na pomyłki przecież. Stąd decyzja o współpracy.

    OdpowiedzUsuń
    Odpowiedzi
    1. My w naszej firmie do przechowywania dokumentów używamy dedykowanego systemu archiwizacyjnego https://www.connecto.pl/archiwizacja-dokumentow-w-przedsiebiorstwie/. Za jego pomocą możliwe jest odpowiednie ponumerowanie oraz odnotowanie każdego dokumentu w komputerowej bazie danych. Takie rozwiązanie w znacznym stopniu zapobiega utracie, bądź zaginięciu ważnej dokumentacji firmowej.

      Usuń
    2. Takie czasy że bez oprogramowań ani rusz i w sumie dobrze, bo kiedyś to się wszystko notowało, dzisiaj wprowadza się w program co jest szybsze i wygodniejsze. A tutaj https://craftware.pl/case-studies/ tak w ogóle możecie sobie sprawdzić jak wyglądają projekty oprogramowań tworzonych na ogromną skalę

      Usuń
  2. Ciekawie przedstawione wiadomości z Polski możecie spotkać na Pinbook

    OdpowiedzUsuń
  3. Fajnie napisane. Pozdrawiam i gratuluję.

    OdpowiedzUsuń
  4. Bardzo fajnie napisane. Pozdrawiam.

    OdpowiedzUsuń
  5. W sumie ja za bardzo nie wiem o co w tym wszystkim chodzi, ale jeśli chodzi o druk to ja zawsze takie rzeczy zlecam drukarni internetowej. Nawet ostatnio dowiedziałam się o usłudze direct mailing http://www.najlepszemedia.pl/na-czym-polega-usluga-direct-mailing/ która jest dla mnie bardzo fajnym rozwiązaniem.

    OdpowiedzUsuń
  6. Bardzo ciekawie napisane. Jestem pod wielkim wrażaniem.

    OdpowiedzUsuń
  7. Teraz jesteśmy otoczeni przez wielkie możliwości technologiczne, ale aby je w pełni wykorzystać i z nich korzystać potrzebny jest bardzo szybki internet. Z tego powodu polecam skorzystanie z oferty firmy https://fiberlink.pl/ która proponuje łącza światłowodowe oraz inne interesujące pakiety multimedialne.

    OdpowiedzUsuń

OPAC - zadanie do wykonania

Click:  https://tiny.pl/dr2sn