Saveall

Er zijn wel een paar redenen te bedenken om het hele Volkskrantarchief op te slaan, ook al heb je geen publicatierecht. Er zouden ooit nog vragen over kunnen komen. Mensen kunnen zich bedenken, kunnen ziek zijn of in het buitenland, of misschien wil iemand ooit nog de teksten gebruiken voor eigen onderzoek. Er zijn 1001 redenen te bedenken waarom dit archief eigenlijk moet worden bewaard, en omdat het een koud kunstje was, heb ik besloten om het ook maar te gaan doen. Ik heb de functionaliteit van de importer nog een stukje uitgebreid, zodat hij automatisch alle blogs kan opslaan.

Het gebeurt in 2 stappen : eerst worden alle users geïmporteerd in wordpress, daarna wordt per user het bijbehorende VKblog geïmporteerd. Dat maakt het mogelijk blogs die al gemigreerd zijn uit te sluiten van import. De importer is inmiddels zo goed, dat dit process zonder menselijke bemoeienis dag en nacht kan doorwerken. Er kunnen meerdere importers parallel draaien. Dat is zinvol, omdat niet de importer de snelheid beperkt, maar de Volkskrant.

 

Na een nachtje draaien ziet het er zo uit :

15 Uur verloren met internetstoring en enkele software-bugs
We zijn nu op 1/5-e :

Er trad vannacht weer een kleine verstoring op. In PHP hoef je niet zelf geheugen vrij te geven, dat doet PHP voor je. Maar kennelijk niet altijd goed. Zo een keer in de 10.000 posts loopt er daardoor iets vast.
We zijn nu hier :

Read Offline:
This entry was posted in Wordpress and tagged . Bookmark the permalink.

29 Responses to Saveall

  1. Maria Trepp says:

    Bravo.

    Ik vind jouw inzet bewonderenswaardig en echt voorbeeldig.
    Maar het kost toch allemaal geld (energie, computers…)?

  2. Dus nu heb jij ook het hele vkarchief en al omgezet naar een nieuw blogformaat.

  3. jeg synes says:

    Man, wat ben je goed bezig…..ik begin er toch maar over te denken mijn archief van de vkblog alsnog te repareren…..:)))…daar kom ik nog wel op terug zeer binnenkort…

    echt geweldig wat je doet….salut á toi!!

    jeggroet

  4. admin says:

    @Jeg : dat is mooi. Ik vond het jammer dat je ervoor bedankte, toen het niet meteen lukte, want het is een mooi en groot blog.

    @Ina :
    Ik moest eerst even zeker weten dat het goed werkt. Hij kan vandaag beginnen, en het zal een kleine 2 weken duren. Mihai zag wel wat toepassingen voor het archief :
    ” hoe vaak gebruikte Ruud Zweistra het woord “moslim” in een reactie ?
    Dat soort vragen kunnen we binnenkort beantwoorden.

  5. admin says:

    @Maria :
    Als ik later groot ben, wil ik mijn geld verdienen met het verkopen van kennis die ik hiermee heb opgedaan. Daarnaast heb ik een deel van de OBA donaties gekregen voor mijn werk.

  6. Ik begrijp dat ie inmiddels draait en blogs aan het verzamelen is. We wachten met spanning af.

  7. admin says:

    Net gestart. Zo te zien haalt hij 1400 posts per uur binnen, dus binnen een week moet heel VKblog geïmporteerd zijn.

  8. admin says:

    Jammer : er is vannacht een internetstoring geweest. Rond 3 uur klapten alle sessies er uit, en vanmorgen kon ik nog steeds niet internetten. Nu lijkt het weer goed te werken, maar de vraag is voor hoe lang. Er is ook een meevaller : de hoeveelheid ruimte die de berichten innemen, is kleiner dan ik dacht. Ik dacht aan 1 Mb per bericht, maar het lijkt een factor 10 minder te zijn. Kennelijk zijn de fotobloggers toch uitzonderingen.

  9. we wachten met spanning af.

  10. admin says:

    Het is “we wachten in spanning af” Het probleem is, dat veel Nederlanders hun eigen taal niet kennen. Nee, eigenlijk is het probleem dat veel Nederlanders stomme boeren zijn die überhaupt geen taal beheersen, of dat nu Nederlands is of een mengsel van van alles en nog wat.

    Terwijl de blogjes binnen stromen, kan ik het niet laten om mee te lezen. Er zijn opvallend veel bloggers die hun brood verdienen als vertaler. Maria-Dolores, Minamijn, Maria Trepp,… dat was nog maar een deel van de groep “pagina-1, letter M”
    De onderwijzers zijn helemaal niet te tellen.

  11. @ Knutselsmurf : Voor Mihai is Nederlands wellicht wel zijn vierde taal….. 😉

  12. Ik heb net een zoekopdracht “wachten met spanning af” in de elektronische krantenbak van de laatste 6 maanden. 17 hits. Dus zo fout ben ik ook niet.

  13. zoekopdracht in de kranten, in de laatste 6 maanden.
    “in spanning af” 123
    “met spanning af” 39

  14. Volgens mij is het met spanning afwachten en in spanning zitten….

  15. admin says:

    @Ina :
    Nee hoor :
    Je wacht in spanning op wat gaat komen.
    ( ik kan trouwens ook niet vinden wat de officiële regel is, als de helft van de mensen het fout doet, moet je gaan kijken wat de betere schrijvers zijn )
    Mihai schrijft beter Nederlands dan de gemiddelde Nederlander, dus dat is best knap. Het zijn de kleinigheden die verraden waar je vandaan komt. Soms is het zelfs wel correct Nederlands, maar niet meer zo gebruikelijk, waardoor je kan zien dat iemand niet met de Nederlandse taal is opgegroeid, of al heel oud is, misschien van klassieke boeken houdt. Maria Trepp heeft ook een bepaald “accent” in haar schrijfsels.

  16. Volgens mij zit het verschil in de combinatie die je gebruikt: met bij afwachten en in bij wachten. Ik heb dit gevonden op internet. http://www.woorden.org/woord/spanning

  17. admin says:

    Dezelfde website bevat ook een tegengesteld voorbeeld :
    http://www.woorden.org/spreekwoord.php?woord=in+spanning

  18. Ik denk dat we er een neerlandicus moeten bijhalen of besluiten dat beide gebruikt kan worden. 😉
    Geen storingen van het internet meer?

  19. admin says:

    Nee,
    ( anders zou ik dit ook niet schrijven )
    Hij draait als een tierelier, het afgelopen uur 1600 blogjes.
    Ergens in de loop van zaterdag zou hij klaar moeten zijn.
    Ik zag vanmiddag het blog van Grutte Pier voorbij flitsen.

  20. we wachten in en met spanning af.

  21. admin says:

    90.608 nu Er zit nog steeds ergens een memory-leak, waardoor elk exemplaar van de importer er na een aantal uren mee stopt. Omdat er meerdere kopieen draaien, geeft dat niet echt problemen, maar ik zou het toch graag oplossen.

    VKblog claimt 244.000 berichten te hebben. Die ga ik niet allemaal importeren, omdat een deel ervan al binnengehaald is met de importer. Veel mensen hebben daarnaast hun blog al leeggehaald : Barbara Jansma, Jan de Stripman, Ina Dijstelberge…. Verschillende blogs zijn door de Volkskrant verwijderd ( Rikus, Ruud Zweistra, Cees in Cambodja )

  22. knutselsmurf says:

    137.484 and counting…
    In de loop van zaterdag moet alles binnen zijn, en dan hoeft niemand meer te vrezen dat VKblog omvalt.

  23. admin says:

    En zojuist passeerde het aantal comments de 1.000.000 !

  24. admin says:

    Ik kan niet exact zien waar hij nu is, maar in ieder geval voorbij de 90 %.
    Dan is VKblog niet zo groot als ze geclaimd hadden.
    Er gaat sinds gisteren van alles mis bij de Volkskrant. Soms zijn ze gewoon een half uur zo goed als onbereikbaar.

  25. vandaag zag ik op de voorpagina bij een bericht 5 reacties en in het bericht 4. Pas na tien minuut is mijn reactie zichtbaar geworden. En de hele site, behalve de nieuws was volledig onzichtbaar voor een tijd.

  26. admin says:

    Het was een drama vandaag, bij VKblog, en ik kon ook niet de hele dag achter mijn computer zitten, maar nu is hij toch echt met de laatste blogjes bezig.
    Er waren een kleine 8000 bloggers, hij is nu bezig met de laatst serie van 250 bloggers, en inmiddels bij de letter Z.
    Het zijn minder blogs dan de Volkskrant claimt, en vooral minder reacties.
    Ik heb de teller nog nooit achteruit zien gaan, als er bijvoorbeeld een Ruud Zweistra van het blog verwijderd werd.

  27. admin says:

    Nu ik bijna alle bloggers binnen heb, zie ik dat het archief van “developer” incompleet is. Er zijn bloggers die 0 blogs hebben, omdat ze nooit begonnen zijn, of misschien alles weggehaald hebben. Die ontbreken. Van de 5 blogs van Mihai ontbreken er 2, omdat ze na 26 maart aangemaakt zijn.
    Als je gewoon alle foutmeldingen negeert, en doorgaat met het volgende blog, ben je wel snel klaar, maar dan ontbreken er wel wat bladzijden in je archief.
    Ik mis ook nog 2 bloggers. Hun naam was niet compatible met de software van wordpress. ( alleen maar een uitroepteken als naam mag niet ) Verder heb ik alles overgeslagen waar ik al een kopie van had, om tijd te winnen. De komende tijd wordt dat nog gecorrigeerd.

    update 01:00 Alles is binnen

  28. Het is precies wat ik vanaf het begin al beweerde. Het aantal blogs betekent het aantal blogs wat is aangemaakt, het zegt niets over het feitelijke aantal.

    Moet een goed gevoel geven dat alles bijna binnen is.

Leave a Reply

Your email address will not be published.