破解宋词密码 你还在羡慕那些出口成章的大词人?你还在苦苦思索优美诗词的灵感?从今以后,这些烦恼可以去无踪了!有网友将《全宋词》文本变成编程“数据”,制作各类诗词。 理科生的“频率分析”《全宋词》文本成编程“数据” 一位叫“yixuan”的理科生闲来无事,把《全宋词》拿出来“捣鼓”,频率分析算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以变成一首诗哦! “yixuan”在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。 ” 比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。 如果把每句话可能的字的组合都列举出来,就可以整体统计高频词频率了,排在前面的分别是: 1、无效数字(14852),2.东风(1382),3.何处(1230),4.人间(1202),5.风流(857),6.归去(812),7.春风(802),8.西风(779),9.归来(771),10.江南(765)... 至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。 ”这个结果一出来,一位网友就一语道破了玄机,原来,最流行的宋词就是“东风何处在人间” 下面这张对照表一定要保存好,最好存在手机里,一定是你的泡妞神器,万一你一不小心穿越回去古代了,能让你三步成诗,独步天下。 《宋词》高频词汇和数字代码: 1空 21一笑 41深处 61一片 81不是 2东风 22黄昏 42时节 62桃李 82时候 3何处 23当年 43平生 63人生 83肠断 4人间 24天涯 44凄凉 64十分 84富贵 5风流 25相逢 45春色 65心事 85蓬莱 6归去 26芳草 46匆匆 66黄花 86昨夜 7春风 27尊前 47功名 67一声 87行人 8西风 28一枝 48一点 68佳人 88今夜 9归来 29风雨 49无限 69长安 89谁知 10江南 30流水 50今日 70东君 90不似 11相思 31依旧 51天上 71断肠 91江上 12梅花 32风吹 52杨柳 72而今 92悠悠 13千里 33风月 53西湖 73鸳鸯 93几度 14回首 34多情 54桃花 74为谁 94青山 15明月 35故人 55扁舟 75十年 95何时 16多少 36当时 56消息 76去年 96天气 17如今 37无人 57憔悴 77少年 97惟有 18阑干 38斜阳 58何事 78海棠 98一曲 19年年 39不知 59芙蓉 79寂寞 99月明 20万里 40不见 60神仙 80无情 100往事 使用方法: 首先看看圆周率π=3.1415926……生成的诗是什么样子: (1415)回首明月 准备回忆开始抒情了 (9265)悠悠心事空 果然,失恋的蛮严重 (358979)故人谁知寂寞 没人搭理暗暗伤神 (323846)风吹斜阳匆匆 回忆那天下午的邂逅 (264338)芳草平生斜阳 一生见过最美的你在夕阳下 (327950)风吹寂寞今日 到现在就剩我自己 (288419)一枝富贵年年 昔日富贵不知珍惜 (716939)断肠长安不知 如今流落京城空悲戚 |