看到 gslin 最近連續寫了兩篇文章,談論 wordpress 的 export 檔,就想起之前在 wordpress 2.3 的時代,寫過一個 wp2docbook.pl,可以將 wordpress export 檔,轉成 DocBook 格式。

轉成 DocBook 格式有很多好處,除了是一種 wordpress independent 備份方式外,亦可以再輸出成 PDF、Word 等做更進一步的處理。有時候要把文章給別人的時候,不方便直接把網頁印下來,若有 DocBook 版,就可以先轉成 word,再修補一下就搞定了。

這個 wp2docbook.pl,讀入 wordpress export 後,會試著理解文章裡的 HTML 碼,轉換成對應的 DocBook 標籤。可以輸出成一個超級大 DocBook 檔,裡面有很多 <article>,也可以每一個 <article> 輸出一個檔,方便備份整理。我用自己的 blog 測試過,六百多篇文章,沒什麼問題。

不過那是在那個時候。XD

如同 gslin 所述,wordpress 的 export 檔,格式問題很多。在寫 wp2docbook.pl 的時候,就搞了很多 hacks,試著解決格式問題。這些 hacks 雖然沒有像 gslin 那樣暴力,但也差不多了。最後發現,export 檔格式一直在變,隨著版本更新,有的欄位修好了,有的欄位又爛了。後來覺得,跟著 wordpress 一直修修補補轉檔程式,實在很沒意思,就放棄更新了。

本來那時就要撰文記錄之,但標題有了就擺在 draft 好久。現在既然提到了,那就釋出吧,順便練練 gitgithub 的使用。這個版本已經不能處理目前最新的 wordpress 2.7.1 版的 export 檔了,不過以 BSDL 釋出,有需要的人就自己再 hack 吧。

請享用:wp2docbook on github