Da hat jemand die Zeichen der Zeit erkannt: in einem 2 Millionen US$ schweren Projekt sollen historische Altbestände der us-amerikanischen Library of Congress digitalisiert, durchsuchbar und online frei verfügbar gemacht werden. Ganz nebenbei werden so die Folgen des physischen Verfalls der Originaldokumente abgemildert, und die des manchmal notwendigen, konservatorischen Wegschließens der Bücher dazu. Gesehen bei linux.com: Linux to help the Library of Congress save American history:
„Digitizing American Imprints at the Library of Congress“ will begin the task of digitizing these rare materials — including Civil War and genealogical documents, technical and artistic works concerning photography, scores of books, and the 850 titles written, printed, edited, or published by Benjamin Franklin. According to Brewster Kahle of the Internet Archive, which developed the digitizing technology, open source software will play an „absolutely critical“ role in getting the job done.
…
„[It’s a] Linux-based station out there in the field. It rsyncs the files up to the servers, [and then] it goes and does the processing on a Linux cluster of over 1,000 machines, and then posts it online — also on Linux machines,“ Kahle says.
Image processing for an average book takes about 10 hours on the cluster, and while the project still uses proprietary optical character recognition (OCR) software, Kahle says that many open source applications come into play, including the netpbm utilities and ImageMagick, and the software performs „a lot of image manipulation, cropping, deskewing, correcting color to normalize it — [it] does compression, optical character recognition, and packaging into a searchable, downloadable PDF; searchable, downloadable DjVu files; and an on-screen representation we call the Flip Book.“
Umfänglicher Artikel, sehr lesenswert. Wäre schön, wenn die hiesigen Pflichtenhefte und Weißbücher sich ebenfalls mit freier Software beantworten lassen könnten.
3 Ergänzungen
Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.