utorak, 7. veljače 2017.

Provedeno šesto harvestiranje hrvatskog weba


Srce je, u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu, od 25. prosinca 2016. do 2. siječnja 2017. provelo šesto harvestiranje hrvatskog weba. Prikupljeni su i arhivirani javno dostupni sadržaji svih web-sjedišta na vršnoj .hr domeni, uključujući from.hr i .com.hr!

Ukupno je prikupljeno i arhivirano više od 77 milijuna datoteka ukupne veličine 7 TB.

Kao ishodišna točka korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavio Registar .hr domena.
Harvestiranje je provedeno pomoću pomagala otvorenog koda Heritrix koji je dorađen u Srcu.

U 2016. godini počele su se koristiti domene s dijakritičkim znakovima, pa se može očekivati  da će takvih stranica u budućnosti biti sve više.

Svi prikupljeni sadržaji bit će dostupni na stranici Hrvatskoga arhiva weba.
Više>>



Nema komentara:

Objavi komentar