Er zijn wel een paar redenen te bedenken om het hele Volkskrantarchief op te slaan, ook al heb je geen publicatierecht. Er zouden ooit nog vragen over kunnen komen. Mensen kunnen zich bedenken, kunnen ziek zijn of in het buitenland, of misschien wil iemand ooit nog de teksten gebruiken voor eigen onderzoek. Er zijn 1001 redenen te bedenken waarom dit archief eigenlijk moet worden bewaard, en omdat het een koud kunstje was, heb ik besloten om het ook maar te gaan doen. Ik heb de functionaliteit van de importer nog een stukje uitgebreid, zodat hij automatisch alle blogs kan opslaan.
Het gebeurt in 2 stappen : eerst worden alle users geïmporteerd in wordpress, daarna wordt per user het bijbehorende VKblog geïmporteerd. Dat maakt het mogelijk blogs die al gemigreerd zijn uit te sluiten van import. De importer is inmiddels zo goed, dat dit process zonder menselijke bemoeienis dag en nacht kan doorwerken. Er kunnen meerdere importers parallel draaien. Dat is zinvol, omdat niet de importer de snelheid beperkt, maar de Volkskrant.
Na een nachtje draaien ziet het er zo uit :
15 Uur verloren met internetstoring en enkele software-bugs
We zijn nu op 1/5-e :

Er trad vannacht weer een kleine verstoring op. In PHP hoef je niet zelf geheugen vrij te geven, dat doet PHP voor je. Maar kennelijk niet altijd goed. Zo een keer in de 10.000 posts loopt er daardoor iets vast.
We zijn nu hier :

Leave a Reply