偶然的機會參加一場座談會,看到有一個詩人帶了一個小冊子,裡面都是紀錄一些韻腳詞彙,後來得知許多寫詩詞的人都有這樣的習慣。就像「訟師秘本」一樣,這本小冊子一定是他們非常重要的資產。如果我們也有了這樣的東西,縱然有些匠氣,也有幾分樣了吧!那要怎麼擁有秘本呢?我們可以假設好的作品都會被發表,因此我們可從已經發表的作品來「逆向工程」,把這些作品的優美詞藻都抓出來就可以了。過陣子我想寫這樣的一個程式,為了怕我忘記,就先簡單的把流程寫在這裡。

第一步是要尋找樣本,我覺得可以先從「歌詞」著手,因為詩集比較少數位化,歌詞則已經有很完善的資料庫了,拿現成的歌詞網當樣本就可以了。

第二步是抓取資料,因為這個程式是要抓押韻的詞彙,那就滿好處理的。歌詞本來就一行一行的,有的歌詞一行裡面可能有二、三句,這就寫一個遇到空格就換行的指令。而我打算只抓每一句歌詞的最後兩個字,並且簡單地篩選掉「的人」、「的愛」這種詞,若為二個字以上以致被裁減的詞,之後再用人工判斷吧!

第三步是排序與搜尋,把抓到的詞彙排序,然後選出其中最常見的兩、三百個。有些詞彙實在太特別,例如蘇打綠的小情歌裡面有一句「度秒如年難捱的離騷。」到目前為止只有這首歌有《離騷》,以及五月天的「倉頡」,那程式就不收入了。

第四步是分類匯入,這部分最困難,我還沒想到怎麼做,考量到詩詞常用轉品修辭,所以不需要考慮詞性,但仍要把相同的音放在同個陣列中,相近的音也要分在同一的群組裡。可能要寫一個對照表,感覺也相當麻煩,或是乾脆就人工分類吧!

第五步是匯出成果,我打算用php寫,所以就用下拉式選單或是核取方塊的方式呈現,使用者要什麼韻腳,程式就列出來。

 

補記:我匯入了幾首試試看,似乎滿可行的,但韻表要自己整理,我也不知道從何弄起,只好先放到EXCEL上面。

20150224

arrow
arrow
    全站熱搜

    okplaymayday 發表在 痞客邦 留言(1) 人氣()