伯克利实验室一个不大可能的团队走出了他们日常正常工作的舒适区域-材料科学-一个不太可能的团队创建了一个文本挖掘工具,该工具可以帮助所有学科的科学家驯服并挖掘目前令人眼花CO乱的COVID-19论文。
基于NLP的工具可以扫描并搜索这些文件,快速突出显示可能需要很多小时才能发现的连接。
该小组将其称为COVIDScholar工具。
实验室新闻部门在4月28日发布的一篇文章中(更正式地是劳伦斯·伯克利国家实验室)发表了一篇文章,研究小组说,其创新源于白宫3月发出的号召性用语。
具体来说,行政部门的科学技术政策办公室要求AI专家帮助开发新的文本和数据挖掘技术,以回答有关COVID-19的紧迫问题。
几周后,这里是材料科学家兼工程师Gerbrand Ceder博士:
“在Google和其他搜索引擎上,人们搜索他们认为相关的内容。我们的目标是进行信息提取,以便人们可以找到不明显的信息和关系。这就是将机器学习和自然语言处理应用于这些数据集的全部思想。”
该项目的共同负责人克里斯汀·佩尔森(Kristin Persson)博士补充说,科学探究的每个领域都会产生大量学术材料。但是,在COVID-19风暴中积累的学术冗长尤其令人生畏。
“毫无疑问,作为科学家,我们不能跟上文献的发展,”佩尔森说。“我们需要帮助以快速找到相关的论文,并在看上去表面上似乎并没有谈论同一件事的论文之间建立关联。”
伯克利自己报道的第三个消息来源是研究生约翰·达格德伦(John Dagdelen),他说Google学术搜索数据库中数百万篇文章的可访问性本身就是强大的。
“但是,当您搜索“脾脏”或“脾脏损伤”时-如今有研究表明脾脏可能受到病毒的攻击-您将获得100,000篇关于脾脏的论文,但它们与什么无关。您需要COVID-19。我们拥有有关COVID-19的最大的单主题文献集。”