首页    新闻    小组    威客    人才    下载    博客    代码贴    在线编程    论坛
谷歌开源大规模语言建模库,探索RNN极限
2016年9月17日 14:13 | 阅读 969 次

近日,谷歌宣布开源大规模语言建模模型库,这项名为“探索RNN极限”的研究今年2月发表时就引发激论,如今姗姗来迟的开源更加引人瞩目。研究测试取得了极好的成绩,另外开源的数据库含有大约10亿英语单词,词汇有80万,大部分是新闻数据。这是典型的产业研究,只有在谷歌这样的大公司才做得出来。这次开源也应该会像作者希望的那样,在机器翻译、语音识别等领域起到推进作用。

开源部分包括:

  • TensorFlow GraphDef proto buffer 文本文件

  • TensorFlow 预训练 checkpoint shards

  • 评估预训练模型的代码

  • 词汇表

  • LM-1B 评估测试

代码支持 4 种评估模式:

  • 提供数据库,计算模型的 perplexity

  • 提供前缀,预测后面一个单词

  • softmax 嵌入项,字符级别的 CNN 单词嵌入项

  • 输入句子,将转存 LSTM 状态的嵌入项

更多详情查看:开源地址

文章转载自:开源中国社区 [http://www.oschina.net]    




评论 (0)
游客请输入验证码
最新评论
0
0
收藏