Digitalizacja zbiorów, rozumiana jako skanowanie, przy obecnych technologiach, automatyzacji i rozwoju skanerów przebiega szybko, jednakże przy dostępie w sieci ważna jest możliwość wyszukiwania właściwego obiektu, przeszukiwania i filtrowania treści, szczegółowość i dokładność opisów. Zatrudnienie odpowiedniej liczby wykwalifikowanych osób do wszystkich tych prac zwykle przekracza możliwości finansowe instytucji dziedzictwa kulturowego.

Biblioteki, archiwa czy inne instytucje prowadzące digitalizację zasobów stosują  często rozwiązanie w postaci wolontariatu.  Korzystają  z pomocy osób zorientowanych w nowych technologiach komputerowych, zwykle zainteresowanych historią, bibliotekoznawstwem, archiwami czy technikami sieciowymi i dysponujących wolnym czasem.  W środowisku bibliotekarskim znana jest inicjatywa Biblioteki Śląskiej, która powołała w swoich strukturach pierwszą w Polsce Społeczną Pracownię Digitalizacji, w czasach, kiedy wolontariat w instytucjach kultury stawiał dopiero pierwsze kroki. Po uruchomieniu Śląskiej Biblioteki Cyfrowej do Biblioteki Śląskiej zaczęły zgłaszać się osoby oferujące bibliotekarzom pomoc w tworzeniu zasobów cyfrowych czy pragnące udostępnić w ŚBC unikalne dokumenty z własnych prywatnych kolekcji. Wśród wolontariuszy znaleźli się więc pasjonaci śląskiej kultury, animatorzy kultury,  seniorzy, m.in. emerytowani nauczyciele, humaniści, urzędnicy a także studenci. Podjęcie takiej formy współpracy wymagało oczywiście przeszkolenia pomocników, profesjonalnego nadzoru i stworzenia zgranego zespołu.

fot. K. Araszkiewicz

Z pomocy wolontariuszy korzystają nie tylko biblioteki, również takie instytucje, jak Archiwum NInA (Filmoteka Narodowa Instytut Audiowizualny),  Fundacja Ośrodka Karta czy  Instytut Józefa Piłsudskiego. Wolontariusze pomagają przy opracowywaniu, konserwacji kolekcji archiwalnych, skanowaniu dokumentów, opisywaniu i kategoryzowaniu dokumentów i fotografii.

Przy pracach polegających na zapewnieniu pełnej przeszukiwalności cyfrowych wersji tekstów, np. korekcie tekstów OCRowanych (Optical Character Recognition), czyli przetworzonych przez oprogramowanie służące do rozpoznawania znaków i całych tekstów, rozwiązaniem może być e-wolontariat. Jedną z metod jest podział prac na setki mikrozadań, które mogą być wykonywane online przez wolontariuszy. Dotyczy to np. opracowywania opisów obiektów czyli tworzenia metadanych przez internetową społeczność. Forma crowdsourcingu jest oczywiście nieporównywalnie tańsza niż zatrudnienie  specjalistów. Jednym z przykładów crowdsourcingu jest  1940 Census Community Project. Amerykańskie archiwa narodowe udostępniły w  online skany dokumentów powstałych podczas przeprowadzonego w 1940 r. spisu powszechnego. 160 tysięcy wolontariuszy, stosując specjalną aplikację, zindeksowało w ciągu kilku miesięcy wszystkie karty zawierające 132 miliony nazwisk. Wyniki prac udostępnione zostały na portalach genealogicznych, m.in. Family Search. Z e-wolontariuszy skorzystała też fińska Biblioteka Narodowa, realizując projekt Digitalkoot, którego celem jego było utworzenie przeszukiwalnej bazy zawierającej wszystkie zgromadzone w bibliotece artykuły prasowe. Skany zostały OCRowane, jednakże stan stuletnich, zniszczonych gazet, drukowanych dziewiętnastowiecznymi czcionkami, wymagał dużej korekty. Profesjonalnym korektorom z Biblioteki  pomogli internauci, zachęceni możliwością grania w dwie  gry dostępne na stronie projektu. W trakcie gry trzeba było odpowiednio szybko przepisać literami słowa wyświetlone w pierwotnej zeskanowanej formie. W grze wzięło udział ponad 100 tysięcy internautów, którzy wpisali ponad 8 mln słów. Akcja była szeroko opisywana w mediach, co korzystnie wpłynęło na wizerunek biblioteki.

Tę samą zasadę,  rozpoznawania fragmentu zeskanowanego tekstu, zastosowano w projekcie reCAPTCHA na Uniwersytecie Carnegie – Mellona w Pittsburghu, a od 2009 roku jest realizowana przez Google. Aplikacja reCAPTCHA to rozwiązanie informatyczne, spełniające dwa cele – ochronę stron internetowych przed spamem (użytkownik musi rozpoznać na obrazku i wpisać literki, żeby udowodnić, że nie jest botem) i jednocześnie  wykorzystywano tu działanie internautów do pomocy przy rozpoznawaniu  zeskanowanych tekstów, z którym odczytaniem nie radzi sobie oprogramowanie OCR. Program reCAPTCHA  wykorzystywano do wspomagania prac nad digitalizacją książek zgromadzonych w Internet Archive, a takżę archiwalnych roczników „New York Timesa”.  ReCAPTCHA umożliwia  użycie wpisów przypadkowych użytkowników sieci, którzy każdego dnia rozwiązują około 200 milionów zadań CAPTCHA. Wykorzystanie nawet niewielkiego procentu tych działań do pomocy przy digitalizacji, to nawet nie tyle oszczędność  kilku tysięcy etatów pracowników stosujących korektę OCR metodami tradycyjnymi, co w ogóle umożliwienie przeprowadzenia weryfikacji OCRowanych dokumentów. Wykorzystywana jest po prostu rozproszona aktywność milionów użytkowników Internetu, którzy wchodząc na strony internetowe zabezpieczone przez CAPTCHA, rozpoznają fragmenty tekstu wymagające weryfikacji.

Przykład obrazka używanego przez ReCaptcha https://commons.wikimedia.org/wiki/File:ReCAPTCHA_idea.jpg

Oczywiście aplikacja reCAPTCHA  to nie jest jakiś uniwersalny sposób stosowania  korekty online przewidywany na dziesięciolecia, bo postęp w rozwoju oprogramowania OCR nieustannie trwa. W nowych narzędziach OCR rozpoznawane są nawet niewyraźne skany, wykonane telefonami komórkowymi, pofalowane, zapisane w stu kilkudziesięciu językach. Rozpoznawanie pisma dzięki zastosowaniu metod z dziedziny rozpoznawania wzorców  wchodzi w już zakres sztucznej inteligencji. Oprogramowanie OCR wykorzystuje różne metody segmentacji obrazu, wykorzystywane są sieci neuronowe. Czy w przyszłości będzie więc miejsce dla e-wolontariuszy, czy wszystkie zadania wykonają wyspecjalizowane programy, automaty, roboty? Miejmy nadzieję, że „czynnik ludzki” zawsze będzie w jakiejś mierze potrzebny.

 

Źródła:

http://www.nina.gov.pl/baza-wiedzy/digitalizacja-i-crowdsourcing/

http://scancentre.pl/recaptcha-niesamowity-projekt/

https://en.wikipedia.org/wiki/ReCAPTCHA

http://e-wolontariat.pl/baza-projektow/co-wspolnego-ma-captcha-z-e-wolontariatem/

https://www.sbc.org.pl/dlibra/text?id=spd&language=pl

http://www.ebib.pl/images/stories/numery/127/127_dec_michalska.pdf

MM

Reklamy