首页 > 金融

3分钟看完一篇论文，AI文本生成模型把今年NeurIPS2300+篇总结

2021-11-27 12:07 作者：白鸽来源：IT之家阅读量：7903

今年 NeurIPS 大会论文已经放榜，终于可以学习一下大佬们的研究了。

不过，打开电脑，随便点开一篇，就是一大段密密麻麻的文字糊脸只是摘要就有这么长，还有 2300 多篇，这工作量实在劝退

能不能让论文们都做一道经典的语文题:用一句话概括全文内容还真可以

最近 Reddit 上的一位博主发布了一篇今年的 NeurIPS 大会论文汇总，其中的每篇论文下方都有一句由 AI 生成的高度凝练的总结。

而这款 AI 文本分析软件，其实就是东京工业大学团队开发的 Paper Digest。

它号称能帮你把论文阅读时间减少到 3 分钟。

除了总结论文内容以外，它还可以筛选出已经发布代码的论文。

同样，这次 NeurIPS 大会上的 200 多篇已发布代码的文章也被汇总了出来。

点击code，就可以直接跳转到相应的 GitHub 页面。

AI 如何做好概括题

那这个 AI 文本分析神器应该怎么用呢。

在这个搜索框里填上你要总结概括的论文的 DOI 号。

DOI 号就像论文的身份证号，是独一无二的。以随便打开的一篇论文为例，它长这样:

填完之后，点击Digest就开始总结了:

只需几秒钟，就会有一句话的总结输出，你也可以选择一个最合适反馈给 Paper Digest，帮他们丰富数据库。

除了输入 DOI 号，如果你有本地的论文 PDF 文件，也可以直接导入。

是不是很方便其实这样方便好用的模型还不止一种

比如，在一款免费学术搜索引擎 Semantic Scholar 里，也加入了一个类似的高度概括 AI:TLDR。

TLDR，其实就是太长不看的意思。

在 Semantic Scholar 上搜索论文时，带有 TLDR标志的就是 AI 生成的一句话总结。

具体到方法原理上，我们不妨以 TLDR 为例一起来看看。

举个例子，下图中上边的格子中是摘要，简介，结论中相对重要的段落和句子TLDR 会标记出突出的部分，然后组合成一个新的句子

它的训练逻辑也很容易理解简单来说，就是先确定一个标准答案，然后把标准答案打乱，再让 TLDR 尝试复原

这和人类提炼概括的过程也很像概括本身也需要忽视一些干扰，然后提取出最重要的部分

所以在训练之前要准备两个数据库，也就是标准答案:一个是 SciTLDR，它包含接近 2000 篇计算机科学相关论文，每篇论文都有一个最好的总结。

另一个是论文—标题对数据库由于标题中一般有很多重要的语句，对生成 TLDR 来说很有帮助

将这两个数据库分别加上控制码lt，TITLEgt，和lt，TLDRgt，之后进行混合，送入 BART 模型。

最后的 BART 模型是一个基于 Transformer 的预训练 sequence—to—sequence 去噪自编码器，它的训练步骤主要有两步:

首先用任意噪声破坏函数文本，相当于把标准答案打乱然后让模型学习重建原来的文本这整个学习策略就是 CATTS

来看看效果如何。

BART 和 CATTS 分别是原有模型和 CATTS 模型给出的总结。

从重合度看起来效果还是不错的。

最新热点

蔚来：湘西环线正式贯通，沿线布局15座换电站、2座超充站和7座目的地充电

华为云洪方明：地方产业结构优化升级，云服务已成为赋能助推器

2021-11-26 17:54

华为云洪方明：云上创新，助力鹏城产业结构优化升级

2021-11-26 17:53

华为云洪方明：华为云六大赋能服务，助力深圳制造与服务业升级

精彩推荐

A股三大指数集体下挫两市逾3300个股下跌

图文推荐

这类主题基金火了！规模超1600亿三年最高大赚290%

科创板数据分析商HCR慧辰发布“一云两数”数字化战略

正式开市！碳排放权每笔交易都与我们的呼吸相关

央企上半年累计实现净利10232.1亿元

孙猛-走近“动画人”的世界

首页 > 金融

3分钟看完一篇论文，AI文本生成模型把今年NeurIPS2300+篇总结

猜您喜欢