UK Government’s digital history preserved by Manchester firm

UK Government’s digital history preserved by Manchester firm

The archive of the UK central government’s online presence has been indexed and digitally archived to the cloud by Manchester tech firm MirrorWeb.

The cloud-native archiving company, which is based in the city centre, devised a new portal to create a more accessible, searchable and user-friendly resource for the public.

Comprising all captured government web-published content, The National Archives’ gigantic 120TB web archive encompasses billions of web pages from 1996 to the present.

It took MirrorWeb just two weeks to transfer the data from 72 hard drives at The National Archives to internal hard drives, using devices called AWS Snowballs, before transferring more than two decades of government internet history to the cloud.

The four-year contract was awarded to MirrorWeb, which was tasked with both moving the data to the cloud using Amazon Web Services (AWS) as well as indexing it. Indexing the data meant that MirrorWeb had to write a complete replacement for the UK Government Web Archives’ previous search functionality.

As a result, 1.4 billion documents were indexed and are now accessible and searchable to researchers, students and the members of the public who need to use them, enabling them to view websites and social media content in their original form as well as search for content on specific topics.

John Sheridan, Digital Director at The National Archives said, “We are preserving 1,000 years of British history and a big part of that is preserving the digital record of government today.

“MirrorWeb has brought some outstanding technical capabilities, in particular data migration, cloud computing, search, new ways of harvesting and crawling content and new ways of presenting content and making it available. I have been most impressed by MirrorWeb’s use of cloud computing technologies. For example, to index the entire 120TB collection they were able to spin up 1000 node plus cluster of computers to process the entirety of that collection, and in just a couple of days.”

To carry out the indexing MirrorWeb built its own software, WarpPipe, which has the ability to index a large number of small files and indexed all The National Archives’ documents in just ten hours.

Philip Clegg, Chief Technical Officer at MirrorWeb explained, “The files within The National Archives are relatively small but in terms of numbers the volume is huge. This posed a problem for the big data processing tools already on the market, which were quoting us a timeframe of six to eight weeks. This is why we built WarpPipe, enabling the documents to be indexed in ten hours.”

The history of the UK central government’s online presence can now be searched by any user. The search functionality is provided by Elasticsearch, which was chosen because it improves on The National Archives’ previous search engine in terms of speed, flexibility and reliability. The index will eventually be updated monthly as opposed to quarterly, giving the end-user more up to date archive content.

MirrorWeb’s Clegg explained, “In under a second the public-facing website can bring up results from every UK government website which has been preserved and can be viewed just as it was for any chosen date.

In this information age, it is vital that our digital history is preserved and this resource will help educate future generations to come.”

The 120TB of data was backed up in a data centre in The National Archives across 72 USB-3 hard drives. MirrorWeb transferred the data using devices called AWS Snowballs which connect to the local network, copy and encrypt the data to internal hard drives, and can then be shipped to an AWS data centre for transfer into the cloud. MirrorWeb used its two custom-built computers that allowed it to move data from up to sixteen of the USB-3 hard drives at a time.

Key facts:

·      120TB of website data – far bigger than the average consumer hard-drive size of between 500GB and 1TB.

·      Every preserved central government website has been indexed to make it searchable.

·      Social media archiving is carried out to preserve government digital communications across Twitter and YouTube.  

·      1.4 billion documents indexed that can be searched, refined and accessed through a public-facing website.

The web archive can be viewed and searched here: http://www.nationalarchives.gov.uk/webarchive/

×

Subscribe

Our BQ Bulletin emails will land in your inbox at 7.30am, Monday to Friday, with a mix of the latest local business news, national news, and features to inspire you. Sign up here!

User registration

Gentile Utente,
ai sensi dell'art. 13 del D.Lgs. 196/2003 recante disposizioni a tutela delle persone e degli altri soggetti trattamento dei dati personali, desideriamo informarLa che i dati personali da Lei comunicati al momento della registrazione sul Sito e della compilazione dell'ordine saranno utilizzati da al fine di svolgere le operazioni da Lei richieste. I dati da Lei comunicati saranno infatti inseriti in un archivio anagrafico clienti al momento della prima registrazione sul Sito, con digitazione di un codice identificativo ed una password che dovrà essere da Lei conservata ed utilizzata per le successive operazioni

I dati forniti saranno trattati direttamente da per le seguenti finalità:
- per l'elaborazione e trasmissione delle comunicazioni previste dalle condizioni del contratto;
- per l'invio di fatture commerciali

In merito alle modalità di trattamento, si precisa che gli indicati trattamenti potranno essere eseguiti soltanto dai responsabili e dagli incaricati autorizzati da usando supporti cartacei o informatici e/o telematici. In ogni caso il trattamento avverrà con modalità idonee a garantirne la sicurezza e la riservatezza in conformità con la disciplina vigente. I dati conferiti non saranno oggetto di diffusione a terzi, salvo per la gestione stessa dei dati da parte di soggetti specializzati ed incaricati da .
In ottemperanza alla suddetta Normativa, di seguito riepiloghiamo le metodologie applicate per il trattamento dei dati da parte della nostra Società che implicano raccolta, conservazione ed elaborazione dei dati in nostro possesso e gli scopi che perseguiamo con ciascuna di esse:
Marketing e Strategie Commerciali: elaborazione dei dati da Lei forniti e di quelli desunti dalle Sue navigazioni in rete allo scopo di definire delle statistiche inerenti gli interessi da Lei manifestati nei confronti dei Prodotti e Servizi offerti da per finalità di marketing e/o attività promozionali in genere;
Gestione amministrativa: raccolta, conservazione ed elaborazione dei dati per scopi amministrativo - contabili, compresa l'eventuale trasmissione per posta elettronica di informative e/o fatture commerciali;
In particolare, per quanto concerne, le modalità del trattamento dei dati, gradiamo comunicare che tutti i dati sono conservati in un apposito archivio tenuto sotto costante controllo e continuo aggiornamento da parte di personale adeguatamente formato. Inoltre è stata redatta una procedura operativa interna (Documento Programmatico Sulla Sicurezza - DPSS). In tale documento viene definito più nel dettaglio il metodo utilizzato per l'applicazione di adeguate misure di sicurezza per la protezione e la riservatezza dei dati. Per completezza, desideriamo infornarla che il conferimento dei dati personali è necessario nella misura in cui essi sono utilizzati per l'esecuzione da parte della nostra Società di obblighi contrattuali e/o di legge.
Dati di navigazione Il sito web raccoglie informazioni tecniche relative all'hardware e al software utilizzati dai visitatori, autonomamente attraverso l'ausilio di strumenti per l'analisi dei file di collegamento. Tali informazioni riguardano:

- indirizzo IP
- tipo di browser
- Internet service provider
- sistema operativo
- nome di dominio e indirizzi di siti Web dai quali ha effettuato l'accesso o l'uscita (referring/exit pages)
- informazioni sulle pagine visitate dai lettori all'interno del sito
- orario d'accesso
- permanenza sulla singola pagina
- analisi di percorso interno (clickstream)
- risoluzione video
- tipo di connessione
- nazione da cui l'utente si collega
- presenza di plugin java installati

Tali informazioni non forniscono dati personali del lettore, ma solo dati di carattere tecnico/informatico che sono raccolti ed utilizzati in maniera aggregata ed anonima al solo scopo di migliorare la qualità del servizio e fornire statistiche concernenti l'uso del sito, suddetti dati vengono cancellati subito dopo l'elaborazione.
Registrazione
Nell'ambito del processo di registrazione, il lettore è tenuto a scegliere una propria user ID ed una password. Inoltre il lettore è tenuto a fornire specifiche informazioni che dovranno essere corrette ed aggiornate. Il lettore non può scegliere la user ID di un'altra persona con l'intento di utilizzarne l'identità. Inoltre non può utilizzare la user ID di un'altra persona senza la sua espressa autorizzazione. E' inoltre vietato l'uso di user ID che l'editore, discrezionalmente, riterrà lesivi di diritti di terzi, o comunque offensivi o scurrili. La password scelta dai lettori al momento della registrazione ai servizi e inserita nel relativo modulo o form di registrazione è personale e non può essere ceduta. I lettori sono tenuti a custodire con la massima diligenza e a mantenere riservata la password al fine di prevenire l'utilizzo del servizio da parte di terzi non autorizzati. Essi saranno pertanto responsabili di qualsiasi utilizzo, compiuto da terzi autorizzati o non autorizzati, dei suddetti identificativi nonchè di qualsiasi danno arrecato al titolare del blog, all'editore e/o a terzi, in dipendenza della mancata osservanza di quanto sopra.
Il lettore non può inviare, distribuire o in ogni modo pubblicare negli spazi abilitati a tale scopo contenuti che presentino rilievi di carattere diffamatorio, calunniatorio, osceno, pornografico, abusivo, o a qualsiasi titolo illegale.
Il lettore si impegna a non assumere atteggiamenti violenti o ad aggredire verbalmente gli altri lettori, astenendosi dall'utilizzo di termini calunniosi, e a non interrompere intenzionalmente le discussioni con messaggi ripetitivi, con messaggi privi di significato o con azioni finalizzate alla vendita di prodotti o servizi.
Il lettore si impegna ad utilizzare un linguaggio rispettoso, tenendo conto che la comunità cresce solo se i suoi membri si sentono ben accetti e rispettati. Il lettore si impegna a non utilizzare termini violenti o che discriminino sulla base della razza, religione, genere, inclinazioni sessuali, disabilità fisiche o mentali e altro. L'uso di linguaggio violento sarà motivo per la sospensione immediata e per l'espulsione definita a tutti o a parte dei servizi del sito.

Accedendo al sito e ai relativi servizi, il lettore si obbliga a:
a.non utilizzare il sito o il materiale in esso inserito per perseguire scopi illegali
b.non utilizzare il sito in modo da interrompere, danneggiare o rendere meno efficiente una parte o la totalità di esso o in modo da danneggiare in qualche modo l'efficacia o la funzionalità del sito;
c.non utilizzare il sito per la trasmissione o il collocamento di virus o qualsiasi altro materiale che in qualche modo possa creare pregiudizio in ogni sua forma;
d.non utilizzare il sito in modo da costituire una violazione di persone o ditte (compresi, ma ad essi non limitati, i diritti di copyright o riservatezza).
e.non utilizzare il sito per trasmettere materiale a scopo pubblicitario e/o promozionale senza il permesso scritto dell'editore.

Il mancato rispetto di queste regole comporta la violazione di queste condizioni generali di utilizzo e può determinare l'immediato annullamento dell'account del soggetto autore della violazione. In caso di effettivo o potenziale utilizzo non autorizzato del proprio account, il lettore è invitato a segnalarlo, fornendo ogni dettagliata notizia in merito alla violazione, e dando comunicazione di perdita, sottrazione non autorizzata, furto, della propria password e delle proprie informazioni personali. Il lettore è consapevole che deve avere compiuto i 18 anni di età per iscriversi al servizio, anche se persone di ogni età possono accedere allo stesso. I minori di anni 18 devono essere assistiti ed autorizzati dagli esercenti la potestà di genitore. Il lettore è pienamente responsabile per ogni azione intrapresa attraverso il suo account, sia direttamente sia attraverso terzi da lui autorizzati. Ogni utilizzo abusivo, fraudolento o in ogni caso illegale è causa dell'immediato annullamento dell'account, ad insindacabile giudizio dell'editore o del gestore del sito, fermo restando l'esercizio di ogni azione legale da parte degli aventi diritto.
Con l'accettazione della presente il lettore dichiara la veridicità di tutte le dichiarazioni rese in fase d'iscrizione al sito.
La informiamo, inoltre, che ogni interessato può esercitare i diritti di cui all'art. 7 del D.Lgs. 196/2003: In relazione al trattamento di dati personali:

1. L'interessato ha diritto di ottenere la conferma dell'esistenza o meno di dati personali che lo riguardano, anche se non ancora registrati, e la loro comunicazione in forma intelligibile.
2. L'interessato ha diritto di ottenere l'indicazione:
a) dell'origine dei dati personali;
b) delle finalità e modalità del trattamento;
c) della logica applicata in caso di trattamento effettuato con l'ausilio di strumenti elettronici;
d) degli estremi identificativi del titolare, dei responsabili e del rappresentante designato ai sensi dell'articolo 5, comma 2;
e) dei soggetti o delle categorie di soggetti ai quali i dati personali possono essere comunicati o che possono venirne a conoscenza in qualità di rappresentante designato nel territorio dello Stato, di responsabili o incaricati.
3. L'interessato ha diritto di ottenere:
a) l'aggiornamento, la rettificazione ovvero, quando vi ha interesse, l'integrazione dei dati;
b) la cancellazione, la trasformazione in forma anonima o il blocco dei dati trattati in violazione di legge, compresi quelli di cui non è necessaria la conservazione in relazione agli scopi per i quali i dati sono stati raccolti o successivamente trattati;
c) l'attestazione che le operazioni di cui alle lettere a) e b) sono state portate a conoscenza, anche per quanto riguarda il loro contenuto, di coloro ai quali i dati sono stati comunicati o diffusi, eccettuato il caso in cui tale adempimento si rivela impossibile o comporta un impiego di mezzi manifestamente sproporzionato rispetto al diritto tutelato.
4. L'interessato ha diritto di opporsi, in tutto o in parte:
a) per motivi legittimi al trattamento dei dati personali che lo riguardano, ancorchè pertinenti allo scopo della raccolta;
b) al trattamento di dati personali che lo riguardano a fini di invio di materiale pubblicitario o di vendita diretta o per il compimento di ricerche di mercato o di comunicazione commerciale.
Per esercitare i diritti previsti all'art. 7 del D.Lgs. 196/2003 e sopra riassunti l'utente dovrà rivolgere richiesta scritta indirizzata a


Rimozione
Se non desiderate essere contattati in futuro, potete chiederlo collegandoVi o inviando una mail all'indirizzo inff@mail indicando l'indirizzo e-mail (o tutti gli indirizzi facenti capo ad un dominio, nella vostra disponibilità) e/o fax di cui volete l'esclusione.

Titolare del trattamento dei dati è - per l'elaborazione e trasmissione delle comunicazioni previste dalle condizioni del contratto;
- per l'invio di fatture commerciali

In merito alle modalità di trattamento, si precisa che gli indicati trattamenti potranno essere eseguiti soltanto dai responsabili e dagli incaricati autorizzati da usando supporti cartacei o informatici e/o telematici. In ogni caso il trattamento avverrà con modalità idonee a garantirne la sicurezza e la riservatezza in conformità con la disciplina vigente. I dati conferiti non saranno oggetto di diffusione a terzi, salvo per la gestione stessa dei dati da parte di soggetti specializzati ed incaricati da .
In ottemperanza alla suddetta Normativa, di seguito riepiloghiamo le metodologie applicate per il trattamento dei dati da parte della nostra Società che implicano raccolta, conservazione ed elaborazione dei dati in nostro possesso e gli scopi che perseguiamo con ciascuna di esse:
Marketing e Strategie Commerciali: elaborazione dei dati da Lei forniti e di quelli desunti dalle Sue navigazioni in rete allo scopo di definire delle statistiche inerenti gli interessi da Lei manifestati nei confronti dei Prodotti e Servizi offerti da per finalità di marketing e/o attività promozionali in genere;
Gestione amministrativa: raccolta, conservazione ed elaborazione dei dati per scopi amministrativo - contabili, compresa l'eventuale trasmissione per posta elettronica di informative e/o fatture commerciali;
In particolare, per quanto concerne, le modalità del trattamento dei dati, gradiamo comunicare che tutti i dati sono conservati in un apposito archivio tenuto sotto costante controllo e continuo aggiornamento da parte di personale adeguatamente formato. Inoltre è stata redatta una procedura operativa interna (Documento Programmatico Sulla Sicurezza - DPSS). In tale documento viene definito più nel dettaglio il metodo utilizzato per l'applicazione di adeguate misure di sicurezza per la protezione e la riservatezza dei dati. Per completezza, desideriamo infornarla che il conferimento dei dati personali è necessario nella misura in cui essi sono utilizzati per l'esecuzione da parte della nostra Società di obblighi contrattuali e/o di legge.
Dati di navigazione Il sito web raccoglie informazioni tecniche relative all'hardware e al software utilizzati dai visitatori, autonomamente attraverso l'ausilio di strumenti per l'analisi dei file di collegamento. Tali informazioni riguardano:

- indirizzo IP
- tipo di browser
- Internet service provider
- sistema operativo
- nome di dominio e indirizzi di siti Web dai quali ha effettuato l'accesso o l'uscita (referring/exit pages)
- informazioni sulle pagine visitate dai lettori all'interno del sito
- orario d'accesso
- permanenza sulla singola pagina
- analisi di percorso interno (clickstream)
- risoluzione video
- tipo di connessione
- nazione da cui l'utente si collega
- presenza di plugin java installati

Tali informazioni non forniscono dati personali del lettore, ma solo dati di carattere tecnico/informatico che sono raccolti ed utilizzati in maniera aggregata ed anonima al solo scopo di migliorare la qualità del servizio e fornire statistiche concernenti l'uso del sito, suddetti dati vengono cancellati subito dopo l'elaborazione.
Registrazione
Nell'ambito del processo di registrazione, il lettore è tenuto a scegliere una propria user ID ed una password. Inoltre il lettore è tenuto a fornire specifiche informazioni che dovranno essere corrette ed aggiornate. Il lettore non può scegliere la user ID di un'altra persona con l'intento di utilizzarne l'identità. Inoltre non può utilizzare la user ID di un'altra persona senza la sua espressa autorizzazione. E' inoltre vietato l'uso di user ID che l'editore, discrezionalmente, riterrà lesivi di diritti di terzi, o comunque offensivi o scurrili. La password scelta dai lettori al momento della registrazione ai servizi e inserita nel relativo modulo o form di registrazione è personale e non può essere ceduta. I lettori sono tenuti a custodire con la massima diligenza e a mantenere riservata la password al fine di prevenire l'utilizzo del servizio da parte di terzi non autorizzati. Essi saranno pertanto responsabili di qualsiasi utilizzo, compiuto da terzi autorizzati o non autorizzati, dei suddetti identificativi nonchè di qualsiasi danno arrecato al titolare del blog, all'editore e/o a terzi, in dipendenza della mancata osservanza di quanto sopra.
Il lettore non può inviare, distribuire o in ogni modo pubblicare negli spazi abilitati a tale scopo contenuti che presentino rilievi di carattere diffamatorio, calunniatorio, osceno, pornografico, abusivo, o a qualsiasi titolo illegale.
Il lettore si impegna a non assumere atteggiamenti violenti o ad aggredire verbalmente gli altri lettori, astenendosi dall'utilizzo di termini calunniosi, e a non interrompere intenzionalmente le discussioni con messaggi ripetitivi, con messaggi privi di significato o con azioni finalizzate alla vendita di prodotti o servizi.
Il lettore si impegna ad utilizzare un linguaggio rispettoso, tenendo conto che la comunità cresce solo se i suoi membri si sentono ben accetti e rispettati. Il lettore si impegna a non utilizzare termini violenti o che discriminino sulla base della razza, religione, genere, inclinazioni sessuali, disabilità fisiche o mentali e altro. L'uso di linguaggio violento sarà motivo per la sospensione immediata e per l'espulsione definita a tutti o a parte dei servizi del sito.

Accedendo al sito e ai relativi servizi, il lettore si obbliga a:
a.non utilizzare il sito o il materiale in esso inserito per perseguire scopi illegali
b.non utilizzare il sito in modo da interrompere, danneggiare o rendere meno efficiente una parte o la totalità di esso o in modo da danneggiare in qualche modo l'efficacia o la funzionalità del sito;
c.non utilizzare il sito per la trasmissione o il collocamento di virus o qualsiasi altro materiale che in qualche modo possa creare pregiudizio in ogni sua forma;
d.non utilizzare il sito in modo da costituire una violazione di persone o ditte (compresi, ma ad essi non limitati, i diritti di copyright o riservatezza).
e.non utilizzare il sito per trasmettere materiale a scopo pubblicitario e/o promozionale senza il permesso scritto dell'editore.

Il mancato rispetto di queste regole comporta la violazione di queste condizioni generali di utilizzo e può determinare l'immediato annullamento dell'account del soggetto autore della violazione. In caso di effettivo o potenziale utilizzo non autorizzato del proprio account, il lettore è invitato a segnalarlo, fornendo ogni dettagliata notizia in merito alla violazione, e dando comunicazione di perdita, sottrazione non autorizzata, furto, della propria password e delle proprie informazioni personali. Il lettore è consapevole che deve avere compiuto i 18 anni di età per iscriversi al servizio, anche se persone di ogni età possono accedere allo stesso. I minori di anni 18 devono essere assistiti ed autorizzati dagli esercenti la potestà di genitore. Il lettore è pienamente responsabile per ogni azione intrapresa attraverso il suo account, sia direttamente sia attraverso terzi da lui autorizzati. Ogni utilizzo abusivo, fraudolento o in ogni caso illegale è causa dell'immediato annullamento dell'account, ad insindacabile giudizio dell'editore o del gestore del sito, fermo restando l'esercizio di ogni azione legale da parte degli aventi diritto.
Con l'accettazione della presente il lettore dichiara la veridicità di tutte le dichiarazioni rese in fase d'iscrizione al sito.
La informiamo, inoltre, che ogni interessato può esercitare i diritti di cui all'art. 7 del D.Lgs. 196/2003: In relazione al trattamento di dati personali:

1. L'interessato ha diritto di ottenere la conferma dell'esistenza o meno di dati personali che lo riguardano, anche se non ancora registrati, e la loro comunicazione in forma intelligibile.
2. L'interessato ha diritto di ottenere l'indicazione:
a) dell'origine dei dati personali;
b) delle finalità e modalità del trattamento;
c) della logica applicata in caso di trattamento effettuato con l'ausilio di strumenti elettronici;
d) degli estremi identificativi del titolare, dei responsabili e del rappresentante designato ai sensi dell'articolo 5, comma 2;
e) dei soggetti o delle categorie di soggetti ai quali i dati personali possono essere comunicati o che possono venirne a conoscenza in qualità di rappresentante designato nel territorio dello Stato, di responsabili o incaricati.
3. L'interessato ha diritto di ottenere:
a) l'aggiornamento, la rettificazione ovvero, quando vi ha interesse, l'integrazione dei dati;
b) la cancellazione, la trasformazione in forma anonima o il blocco dei dati trattati in violazione di legge, compresi quelli di cui non è necessaria la conservazione in relazione agli scopi per i quali i dati sono stati raccolti o successivamente trattati;
c) l'attestazione che le operazioni di cui alle lettere a) e b) sono state portate a conoscenza, anche per quanto riguarda il loro contenuto, di coloro ai quali i dati sono stati comunicati o diffusi, eccettuato il caso in cui tale adempimento si rivela impossibile o comporta un impiego di mezzi manifestamente sproporzionato rispetto al diritto tutelato.
4. L'interessato ha diritto di opporsi, in tutto o in parte:
a) per motivi legittimi al trattamento dei dati personali che lo riguardano, ancorchè pertinenti allo scopo della raccolta;
b) al trattamento di dati personali che lo riguardano a fini di invio di materiale pubblicitario o di vendita diretta o per il compimento di ricerche di mercato o di comunicazione commerciale.
Per esercitare i diritti previsti all'art. 7 del D.Lgs. 196/2003 e sopra riassunti l'utente dovrà rivolgere richiesta scritta indirizzata a


Rimozione
Se non desiderate essere contattati in futuro, potete chiederlo collegandoVi o inviando una mail all'indirizzo info@bqlive.co.uk indicando l'indirizzo e-mail (o tutti gli indirizzi facenti capo ad un dominio, nella vostra disponibilità) e/o fax di cui volete l'esclusione.

Titolare del trattamento dei dati è

Fields marked with an asterisk (*) are required

Click here to read our privacy statement