niedziela, 20 grudnia 2020

PDF - tworzenie i edycja

I. PDF - o formacie: 
http://pl.wikipedia.org/wiki/Portable_Document_Format 
http://www.adobe.com/devnet/pdf/pdf_reference.html (english) 
(specyfikacja Adobe) 
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=45613 
(ISO 19005-1:2005/Cor 1:2007) 

A. Programy natywne: 
Tworzenie, edycja - Adobe Acrobat 
Otwieranie - Adobe Reader (free) 
http://get.adobe.com/pl/reader/ 

B. Wirtualne drukarki PDF - wybór: http://pl.wikipedia.org/wiki/Wirtualna_drukarka 
(uwaga: w trakcie instalacji na komputerze, może instalować się dodatkowy soft; programy mogą zmniejszać rozdzielczość, itd.)

PDF Creator: http://www.pdfforge.org/  <<polecane>>
Bullzip PDF Printer: http://www.bullzip.com/products/pdf/info.php <<polecane>>
doPDF: http://www.dopdf.com/pl/ 
Więcej: http://www.dobreprogramy.pl/Konwertery-i-generatory-PDF,Programy,Windows,79.html 

C. Konwertery on-line - wybór:
(konwersja wielu plików JPG na PDF, bez OCR)

E. Inne programy:
MS Office (Word): https://www.office.com/

---------------------------------------------
Nadprogramowo (dla dociekliwych):
---------------------------------------------

II. DjVu - o formacie:
http://pl.wikipedia.org/wiki/DjVu
opis: http://www.djvu.pl/djvu_tech.php http://www.djvu.pl/
broszury: http://www.djvu.pl/brochures.php

A. Otwieranie DjVu (plugins):
Caminova Official DjVu Browser Plug-in (Free - Win/Mac)
http://www.caminova.net/en/downloads/download.aspx?id=1
DjVuLibre DjView (Free - Unix/Linux/Win/Mac)
http://sourceforge.net/project/showfiles.php?group_id=32953
WinDjView and MacDjView Desktop Viewers (Free - Win/Mac)
http://sourceforge.net/projects/windjview/

B. Zastosowanie:
Jakość a rozmiar; warstwy w plikach DjVu:
http://www.djvu.com.pl/galeria/UJ/Starodruki1.php
http://www.djvu.com.pl/galeria/UJ/Starodruki2.php

C. PDF a DjVu - porównanie:
PDF czy DjVu, w którą stronę?
http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
Prezentacja i porównanie map DjVu i pdf
http://www.djvu.com.pl/pdfanddjvu/Wisconsin/Skanowane_mapy.php
DjVu-Digital vs. "Super Hero" PDF http://djvu.org/resources/djvu_digital_vs_super_hero_pdf.php

III. Tworzenie plików w formacie DjVu:
A. Komercyjne:
DocumentExpress Professional (6.5, 7.0)
DjVu Virtual Printer Driver
http://www.djvu.com.pl/download.php
opis: http://www.djvu.com.pl/djvu/DjVu_Editor_50/DjVu_File.html

B. Darmowe do własnych potrzeb:
DjVu Solo
http://djvu.org/files/DjVuSolo3.1-noncom.exe
opis: http://www.djvu.com.pl/djvu/DjVu_Story/DjVu_Software1.php
PDFtoDjVu (wykonywane z wiersza poleceń)
https://code.google.com/p/pdf2djvu/
download: https://code.google.com/p/pdf2djvu/downloads/detail?name=pdf2djvu-win32_0.7.14.zip
PDF2DJVU Graphical Front
http://sourceforge.net/projects/pdf2djvugui2/
DjVu Libre
http://sourceforge.net/projects/djvu/files/
opis: http://djvu.sourceforge.net/doc/index.html

C. Serwery DjVu i inne:
Any2Djvu: http://any2djvu.djvuzone.org/
Serwer DjVu dla MBC: http://djvu.mbc.malopolska.pl/
DjVuDigital: http://djvu.sourceforge.net/doc/man/djvudigital.html

D. Więcej:
--zob. Narzędzia: konwersja i wydruk [DjVu] http://www.3ap.fora.pl/zasoby-cyfrowe-2008-2013,20/zs-lab-02-w-kowalewski,2575.html
--zob. instrukcje MBC DJVu bitonal (druki nowe): https://dl.dropboxusercontent.com/u/222533585/instrukcje_mbc/...
Konwersja DF/DJVu: https://dl.dropboxusercontent.com/u/222533585/instrukcje_mbc/djvu_technologia_pdf_mbc.pdf

DJVu photo (starodruki, ikonografia): https://dl.dropboxusercontent.com/u/222533585/instrukcje_mbc/...
Raster/tekst (eksperyment): https://www.dropbox.com/home/Public/instrukcje_mbc/...

IV. Ćwiczenia (DjVu):
0. Sprawdź, czy masz zainstalowany plugin DjVu. Jeśli nie, to pobierz go i wykonaj http://www.caminova.net/en/downloads/download.aspx?id=1

1. Pobierz, zainstaluj i ruchom oprogramowanie LizardTech DjVu Solo:
- http://djvu.org/files/DjVuSolo3.1-noncom.exe
2. Przygotuj materiał do przetwarzania (File-->Open) 
3. Uruchom Djvu Solo i wczytaj pierwszy skan (w oknie Pliki typu ustaw *.jpg):
4. Po wczytaniu ustaw mysz na tle miniaturki pierwszego skanu i wybierz - insert page(s) after. Ponownie w oknie Pliki typu ustaw *.jpg:
5. Kliknij w ostatni na liście i przy wciśniętym klawiszu Shift na przedostatni. Potem wybierz Otwórz i cierpliwie odczekaj aż program wczyta pliki do pamięci (zwykle trwa to kilka, zależnie od liczby skanów).
6. Po wczytaniu wybierz "save as",
- w pierwszym oknie dialogowym wybierz "bundlet" (tzn. ciągłe)
- w drugim podaj nazwę pliku (sugeruję zależnie od publikacji nazywać je następująco: nazwisko_studenta_ikc_nazwa profilu konwersji, np. kowalski_jan_ikc_bitonal)
- w trzecim oknie dialogowym określ parametry kompresji. W polu resolution wpisz rozdzielczość 300 dpi i ustaw typ "scanned". Potwierdź i czekaj cierpliwie aż program skończy kodowanie (to trwa zwykle kilka minut - zależnie od liczby skanów).
7. Powtórz czynności 3-6 używając kolejnych profili Photo, Clean, Bitonal.
8. Zwróć uwagę na profile segmentacji „Scanned” oraz „Clean” oraz porównaj wielkości plików z:

Ilustrowany Kuryer Codzienny. 1939, nr 202 (24 VII)
http://mbc.malopolska.pl/publication/83377

niedziela, 6 grudnia 2020

TIF do JPG z zachowaniem EXIF + OCR

I. TIF do JPG

Konwersja plików TIF do JPG z zachowaniem metadanych EXIF w programie Irfan View.

1. Otwórz pierwszy plik TIF w IrfanView
2. Z menu Plik wybierz Przetwarzanie wsadowe (seryjne)

Ustaw algorytm konwersji dla następujących ustawień:

Wykonuj:
Wsadowa (seryjna) KONWERSJA

Ustawienia wsadowej konwersji:
Format wyjściowy:
JPG 

OPCJE: 
JAKOŚĆ 100%
zaznacz:
Zachowaj pierwotne dane EXIF (w JPG)
Zachowaj pierwotne dane IPTC
Zachowaj pierwotny komentarz JPG
Zachowaj pierwotne dane XMP
Zachowaj pierwotne jakość JPG (szacunkowo) 

Katalog docelowy:
wskaż nowy katalog, np. JPG_testy

Pliki źródłowe:
Dodaj wszystkie

START

Zachowaj pliki JPG na kolejne zajęcia.

3. Sprawdź, czy pliki zostały poprawnie skonwertowane i  posiadają metadane (Irfan View - klawisz I)

II. OCR

Dla dociekliwych:
Analiza porównawcza wybranych programów do optycznego rozpoznawania tekstu
Porównanie oprogramowania do optycznego rozpoznawania znaków

A. Ćwiczenia z Google Drive (tylko JPG)

1. Skonwertuj pliki TIF do JPG za pomocą dowolnego programu (XnView, FastStone, IrfanView). Uwaga 1: Google nie dokona odczytu OCR plików TIF
Uwaga 2: Skany muszą być wcześniej odpowiednio wykadrowane - zob. TU . Nie zmieniaj ich rozdzielczości. Poziom kompresji ustal na 0%. Zachowaj dane EXIF.

2. Zaloguj się na swoje konto w google.com i przejdź na Dysk Google https://drive.google.com/
3. Załóż folder, np. tytuł dokumentu
4. Wczytaj hurtowo pliki JPG do tego folderu (np. przenieść i upuść)
5. Kliknij na wybrany plik prawym przyciskiem myszy i wybierz Otwórz w:-> Dokumenty Google
6. Gdy dokument się otworzy. Pod grafiką znajdziesz rozpoznany tekst z pliku (jeśli skan zawiera tekst)
7. Popraw błędy słowne. Kliknij w menu Narzędzia -> Pisownia i gramatyka -> Sprawdzanie pisowni i gramatyki.  
8. Pobierz plik na dysk lokalny w formacie RTF, DOC, TXT lub epub

Wykonaj testy na kilku skanach, w tym:
- na skanach, które nie zostały "rozcięte"
- na skanach, które posiadają obrazki
- na skanach, które są kolorowe
- na pliku PDF

Eksperymentuj.
Co zaobserwowałeś?

B. Ćwiczenia z programem FreeOCR.net (TIF i JPG)

Wersja instalacyjna:

A. Pobierz i zainstaluj program
B. Open - wczytaj plik TIF/JPG
C. OCR - Language - wybierz pol

D. Wybierz: Start OCR
E. Wybierz: Export as RTF

Zwróć uwagę na funkcje:
Remove Line Breaks
Text Post Processing  (możesz skorygować niektóre znaki)

Uwaga: pliki graficzne możesz poddawać OCR tylko dla pojedynczych skanów. Jeśli chcesz rozpoznać cały dokument, musisz przekształcić plik w PDF.

C. Ćwiczenia z konwerterami on-line OCR

Wejdź na stronę: https://www.onlineocr.net/pl/
Wczytaj plik TIF/JPG
Wybierz język i format wyjściowy
Skopiuj tekst do edytor tekstu

Wejdź na stronę: https://img2txt.com/pl
Wczytaj plik JPG
Wybierz język
Skopiuj tekst do edytor tekstu

-----
Porównaj wyniki OCR z punktów A, B i C. Prześlij wykładowcy próbki OCR (dla 2 różnych skanów) w 1 pliku (MS Word). Opatrz je krótkim komentarzem (plusy/minusy) w formie wniosków. 

OPAC - zadanie do wykonania

Click:  https://tiny.pl/dr2sn