VKblog-importer : aanvulling-2 gebruiksaanwijzing

As we speak draait versie 0.1.4 zijn testrondjes.
Met een paar kleine verbeteringen onder de motorkap, en geen uiterlijke wijzigingen.

– Windows case sensitive namen
– volkskrant.nl avatars
– commit pas na laatste comment
– VKblog 1-januariprobleem
– blogspot.com geen avatars
– blognaam default
– extra witregels weg

Windows case sensitive namen
Op VKblog waren de namen “Uitzicht.jpg” en “uitzicht.jpg” verschillend.
Op een Windows PC zijn het dezelfde namen, en dat gaf problemen bij het maken van een bestand voor upload naar wordpress.com
Voor Windows identieke namen worden nu uniek gemaakt met een volgnummer.

volkskrant.nl avatars
Er zijn avatars die niet op vkblog.nl staan, maar op volkskrant.nl
Die zouden onzichtbaar worden als de Volkskrant ook die files weggooit op 1 maart. Ik weet niet of ze dat doen, maar voor de zekerheid haal ik ze nu ook binnen.

commit pas na laatste comment
Bij de vorige versie kon het gebeuren dat er comments ontbraken, als de importer werd geherstart na een crash. Nu wordt het blog pas in de WordPress database opgenomen na het verwerken van het laatste comment. Bij een onverhoopte crash gaat bij herstart dus geen enkel comment verloren.

VKblog 1-januari-probleem
De Volkskrant plakte ten onrechte het vorige jaar aan de datum van blogs die gepubliceerd werden op 1 januari. Dat wordt nu gecorrigeerd in de importer, zodat de volgorde blijft kloppen.

blogspot.com geen avatars
Ja, dat is jammer.
Blogspot heeft moeite met afbeeldingen in comments. Niet alleen worden ze niet getoond, maar het hele comment wordt verwijderd. Om dat te voorkomen gaan ze bij het invullen van “blogspot.com” achter Fdomein niet meer in de posts ingevoegd worden. Bij wordpress.com worden afbeeldingen in comments ook uitgefilterd, maar de tekst blijft intact. Overigens werkt het niet alleen zo bij het maken van een exportfile, maar ook bij import in je eigen wordpress installatie. Hoe meer keuzes, hoe meer vreugd, tenslotte.
( Todo : 14.000 nieuwe gravatars uploaden)

blognaam default
Schoonheidsfoutje : daar moest default niets staan, en er stond een testwaarde. Met als gevolg dat mensen die er overheen gekeken hadden opnieuw moesten importeren om hun afbeeldingen op hun blog te krijgen.

extra witregels weg
De TinyMCE editor die zowel VKblog als WordPress gebruiken, creeert extra witruimte, door bij elke enter een nieuwe paragraaf te beginnen. Dat gaf een verschil in layout na importeren. Dat is opgelost door lege paragrafen te vervangen door <br /> <br />

Work in progress.

Widgets importeren

Read Offline:
This entry was posted in Wordpress. Bookmark the permalink.

10 Responses to VKblog-importer : aanvulling-2 gebruiksaanwijzing

  1. Henk Daalder says:

    Begrijp ik nu dat je ook in blogspot kunt importeren?

    Hoe gaat dat?
    Ik vermoed door de WP export file te importeren in Blogspot, als die dat formaat accepteert.
    Maar moet de importer dan nog bepaalde waardes in de parameters meekrijgen?

  2. Henk Daalder says:

    Nog een gebruiks verslag van de importer versie 0.13

    Volgens de gebruiksaanwijzing op de juiste plaats neergezet me ftp, ik gebruik daar al 20 jaar Total Commander voor.

    Daarna de stappen in de gebruiks aanwijzing van op Kblog precies opgevolgd
    De velden onderaan leeg gemaakt.
    En een paar blog bijdragen geprobeerd.
    Het werkt!
    Je moet wel voor elke aanpassing op de import pagina , de instellingen opslaan.

    Alleen vind ik de layout van het standaard WP blog niet zo mooi
    Te grote letters en te veel ruimte russen de regels.
    Maar daar kan de importer niets aan doen, dat moet je regelen in de style sheets van WP.

    In de standaard instelling van de importer voegt hij een stukje stylesheet toe om de tekst van de hoofdbijdrage in lettertype arial te krijgen
    Sympathiek, maar het geheel van het WP blog vind ik onoverzichtelijk, met veel te veel verschillende lettertypes en lettergroottes.

    Daarom heb ik de lettertype toevoeging in de importer leeg gemaakt voor het tweede deel van de import. Het geimporteerde blog krijgt dan het standaard WP lettertype.
    En verandert mee als je een geheel nieuwe WP stijl instelt.
    Ik heb de WP standaard stijl twenty ten.
    Zoals Knutselsmurf al een keer schreef, er gaat nog veel werk in zitten om dat te krijgen zoals je wilt.

    Een van mijn aanpassingen in de stijl is het lettertype voor de blogs en reacties.
    Gelukkig kan dat op 1 plek, als je weet wat je doet.
    De regelafstand van de blogs is ook zo aangepast
    Maar ik zoek nog de plek waar de regel afstand van de reacties wordt ingesteld.

    Inmiddels is er al een versie 0.14, maar over verbeteringen in de layout van de bijdragen lees ik niets.
    Daar is al veel aan gedaan, maar het resultaat ziet er nog niet goed genoeg uit
    De importer stript al bijna alle VK stijl weg, maar niet paragraaf en lege regels.
    Bij het VKblog is elke regel een nieuwe paragraaf, die op het VKblog zonder wil onder elkaar worden geplakt.
    Dat heeft Knutselsmurf allemaal weggefilterd tot de layout instructies die er wel toe doen.
    Maar je moet nog wel elk blog nabewerken.
    Ik heb gekeken naar automatische patronen voor een betere layout, maar zie zo geen verbeteringen in wat Knutselsmurf al geprogrammeerd heeft.
    Omdat alles bij het VKblog een nieuwe paragraaf is, worden ook lege regels een nieuwe paragraaf, die zouden wellicht weggelaten kunnen worden, maar dat zal maar een beetje helpen.
    Er moet nog iets mogelijk zijn op dit gebied.

    Ik ga er nog een keer naar kijken

    Ik heb per jaar een import gestart
    Volgens het VK blog heb ik 802 blogs
    Nadat alle jaren waren geimporteerd had WP er ca 650
    Daarna heb ik maand voor maand gecontroleerd de VKblog archiefpagina vergeleken met de lijst berichten in de admin pagina van WP.
    Zo kwam ik wat lege blogs tegen, zoals in de gebruiksaanwijzing al is beschreven
    En enkele maanden die helemaal niet geimporteerd waren.
    De fout geimporteerde blogs kun je gewoon verwijderen, en daarna opnieuw importeren
    Daarna heb ik maand voor maand een extra import voor gestart voor de gevonden gaten in de lijst van WP berichten.
    Ik heb nu 800 van de 802 blogs waar die 2 gebleven zijn, weet ik nog niet.

  3. admin says:

    Landheha heeft het uitgeprobeerd, en die had wat bevindingen, die ik verwerkt heb in de volgende versie. Je moet het WXR bestand omzetten naar blogspot formaat, met een hulpprogramma. Ik heb zelf nog geen blogspot account, dat staat nog op mijn to-do lijst, maar zodra ik het weet, zal ik het publiceren.

    http://landheha.blogspot.com/2011/01/whodunit-ii.html

  4. admin says:

    Het is een tot nu toe onopgelost raadsel hoe hij dingen kan overslaan, want hij blijft proberen tot een blog met de juiste timestamp en category in de WP database zit.
    Ik kan niet op afstand controleren wat er binnenin zo’n webserver gebeurt.
    Als je de importer herstart, met dezelde instellingen, voert hij opnieuw de controle uit of hij blogs al heeft. Dat is de gemakkelijkste manier om ontbrekende zaken alsnog binnen te halen en tevens een goede controle om te zien of je alles hebt.
    0 posts in x minuten moet het resultaat zijn.

    Ik kan kijken of ik lege paragrafen door newlines kan vervangen. Dat zou het layout probleem wel oplossen, denk ik.

  5. Henk Daalder says:

    Voor de layout in een blog gok ik op BR tags laten staan en alleen een paragraaf van witregel naar witregel.
    De vraag is hoe je dat herkent
    Een artikel begin met een echt lege paragraaf, die kan altijd weg
    Een witregel is te herkennen aan een paragraaf met alleen een nbsp (en echte spaties)
    Zoiets markeert en paragraaf einde.

    in pseudocode:
    verwijder eerste lege paragraaf van een artikel
    Start output:
    Eerste paragraaf start, kopieren
    Eerstvolgende paragraaf einde wordt wordt BR tag
    Daarop volgende paragraaf eindes steeds omvormen tot een BR tag,
    Paragraaf beginnen steeds verwijderen, tenzij:
    Eerstvolgende paragraaf met alleen NBSP is echte paragraaf einde
    Begin weer bij start output:

    Ik heb wat gespeeld met de code, om bijv die lege paragraaf met alleen nbsp te herkennen, maar die lijkt hij niet te zien.

  6. admin says:

    Het is al aangepast, Henk.
    Op dit moment draait de importer, en ik ben het jaar 2009 even opnieuw aan het importeren. Je zal zien dat de layout nu meer lijkt op die van VKblog.
    Let wel, van voor de aanpassing naar piepkleine letters.

    De truuk is om de VKblog output te filteren voordat het de XML-parser in gaat.

  7. Henk Daalder says:

    Of in elementen denkend, voor de inhoud van een artikel
    voor alle paragraaf elementen in een artikel
    strip de eerste paragraaf
    Begin met een nieuwe paragraaf
    1:
    pak de inhoud van een paragraaf
    als het geen paragraaf is met alleen NBSP, voeg hem toe aan een nieuwe paragraaf, en voeg een BR tag toe
    Als het wel een lege paragraaf is met alleen NBSP, sluit de nieuwe paragraaf af

    Begin met een nieuwe paragraaf, als er nog meer paragrafen in de input zitten
    Ga naar 1:
    anders paragraaf afsluiten.

  8. admin says:

    Bij het maken van de WXR-files voor mensen met een account bij wordpress.com doken een aantal problemen op :
    – mensen gebruikten subdirectories om hun mediabestandenop VKblog te organiseren, maar dat kan niet op wordpress.com
    Gevolg : duplicate filenames en veel gemier om het op te lossen.
    45 Mb aan gedownloade files konden worden weggegooid, en het proces kon opnieuw starten. Ook nog steeds een datumprobleem. Het probleem zat niet in alle jaargangen, dus 2007 werd weer ten onrechte 2008. De Volkskrant blijkt ook overal en nergens die avatars geplaatst te hebben. En natuurlijk maak ik zelf zo af en toe ook een foutje, vooral als ik even snel een ander foutje probeer op te lossen….

  9. admin says:

    Nog een puntje :
    Het lukt uitstekend om 2 importers tegelijk te draaien. Per ongeluk uitschieten met de muis levert dus onverwachte resultaten op. Je krijgt alle files dubbel. Nieuwe posts krijgen pas na het verwerken van het laatste comment een categorie, en daarom ziet die 2-e importer niet dat de post al bestaat.
    2 Importers parallel draaien kan snelheidswinst opleveren, als je 2 verschillende jaren kiest.

  10. knutselsmurf says:

    Aaaaarghh !
    Er komt weer een nieuwe versie, want Gravatar verwijdert spaties tussen woorden in e-mail adressen. De importer genereerde dus adressen waar nooit iemands afbeelding aan toegevoegd zou kunnen worden.

    http://www.kblog.nl/2011/02/als-je-gravatar-het-niet-doet/

Leave a Reply

Your email address will not be published.