宋词-词频

最近老收到那个“消灭”文科生的词频页面。好吧,我也来跟风娱乐一下 =,=

对着原贴那样的题目,做为理科生,拿着随机数对着看啥的,哪好意思啊。搞几行代码才好装13。



随机取词时,以词频做为概率,运行一次的结果如下:

                              时节 
                            天涯 一点 
                          归来 一笑 春风 
                        何处 回首 如今 无限 
                      十分 春风 故人 万里 尊前 
                    富贵 风雨 当时 时候 西湖 肠断 
                  神仙 十分 何处 故人 为谁 不知 何时 
                平生 江南 鸳鸯 风流 消息 春色 月明 相思 
              芙蓉 年年 回首 江上 黄昏 何处 今日 海棠 风月 
            万里 风雨 春风 天气 回首 凄凉 当年 东风 谁知 一笑 
          青山 十年 时节 桃李 时候 回首 长安 一点 平生 不知 一枝 
        黄昏 归来 寂寞 时节 平生 肠断 人间 桃花 如今 月明 春色 为谁 
      长安 风月 桃花 风流 东君 阑干 一声 归来 深处 憔悴 平生 无情 江南 
    寂寞 无限 鸳鸯 江南 长安 当时 消息 梅花 心事 何处 不似 春风 断肠 流水 
  何处 十分 东君 扁舟 一枝 年年 阑干 芙蓉 时节 几度 桃花 寂寞 当年 江南 无限 

另外,我想到了以前做Project Euler的第18题,如果随机产生的这些三角形的数字,寻找和最大(或其它特征的最优)路径,这个路径的词拼起来,成为一个句子,估计比单纯的随机数拼句子,要有趣得多。

如果要把这个词频用图片可视化展示的话,可以用现在很流行的,用于分析微博关键词的worldcloud。试着用R画了一下:

最后分析了一下词频的分布情况:

竟然满足幂律分布。也就是说,其实大家并不爱用高频词。

m4s0n501

Related Posts

Leave a Comment


NOTE - You can use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>