近日,谷歌宣布开源大规模语言建模模型库,这项名为“探索RNN极限”的研究今年2月发表时就引发激论,如今姗姗来迟的开源更加引人瞩目。研究测试取得了极好的成绩,另外开源的数据库含有大约10亿英语单词,词汇有80万,大部分是新闻数据。这是典型的产业研究,只有在谷歌这样的大公司才做得出来。这次开源也应该会像作者希望的那样,在机器翻译、语音识别等领域起到推进作用。
开源部分包括:
TensorFlow GraphDef proto buffer 文本文件
TensorFlow 预训练 checkpoint shards
评估预训练模型的代码
词汇表
LM-1B 评估测试
代码支持 4 种评估模式:
提供数据库,计算模型的 perplexity
提供前缀,预测后面一个单词
softmax 嵌入项,字符级别的 CNN 单词嵌入项
输入句子,将转存 LSTM 状态的嵌入项
更多详情查看:开源地址
文章转载自:开源中国社区 [http://www.oschina.net]