博客

人工深度加工的增强型数据集对大数据分析的重要性

The importance of human-curated data enrichment for big data analysis

Matt Toussant, Ph.D.

Senior VP, Product& Content Operations, CAS

高级副总裁,产品及内容运营, 美国化学文摘社

2018-3-22

大数据分析在化学科学的发展中起着越来越重要的作用。随着世界上越来越多的科学数据以数字格式存储、数据收集速度加快,大数据只会越来越大。根据IBM Marketing Cloud的统计,世界上90%的数据都是在过去两年中创建的。

这对商业和研究来说是个好消息,尤其是在化学科学领域,已经建立了一个完善的科学数据发布和共享体系。随着更多数据的出现,人类就能够做出更佳的决策,提高产出,丰富人类生活。当然,要将这些原始数据转化为信息,并将这些信息转化为见解,以正确的方式对科学数据组织、精炼和充实是至关重要的。

什么是大数据的丰富与扩展?

数据的丰富与扩展指的是为了原始数据的质量和效用而进行关联、丰富扩展和完善。有效地进行数据的丰富与扩展不仅仅是简单地减少错误和提高数据的准确性,它还包括组织、深度加工、关联和推算高度复杂的信息库,将庞大的“数据湖”变成有组织的水库,由“管道”和相关的知识图组成,并为潜在的知识体准备取样。最终,数据丰富与扩展的目标是推动发现这些集合中的关联集群、关系和最佳语义本体,揭示得出结论所需的新见解,并作出真正的战略决策和潜在的知情预测。

丰富扩展型的大数据分析提供了新的见解(甚至预见未来)

对大数据的丰富与扩展和相关知识图的分析有助于研究人员、企业家和商业领袖解读大量发表的化学科学数据,以产生新的见解并取得更好的结果。从期刊和专利,到化学结构和竞争策略,大数据分析能够帮助用户将这些点连接起来,揭示发展趋势,发现下一个机会。

这些工具不仅有助于更高效地获取洞察力,而且还有助于预见未来。对丰富与扩展的大数据进行分析,使企业家和商业创新者能够在竞争格局中获得内在的线索,评估公司的优势和劣势,并了解商业战略。大数据也可以让你比以往任何时候更早地找到将研究成果成功商业化的途径。同样地,基于今天所了解的信息,也有可能发现与创新相关的商业机会何时会达到顶峰。

生物技术是一个有着蓬勃发展的技术转移空间的领域,丰富与扩展后的大数据分析将会在这方面发挥重要作用。在这个快速扩张的领域,大数据分析可围绕生物制品、靶点、治疗适应症和制造商等进行专利和出版物数据聚类,以期从中了解竞争对手的格局,并将治疗手段与机会联系起来。并且,增强型大数据分析有助于追踪该领域的进展,发现创新研究机会,并帮助研究人员找到通往成功的最佳路径。

在科学领域取得可靠的丰富与扩展的大数据,仍然需要人类的智慧

丰富与扩展数据是获取大数据价值的关键。然而,由于科学数据量猛增,确保数据洞察力的可靠性和高质量已经成为一个挑战。

科学数据的复杂性是独一无二的。化学结构和名称、范围值、图形和图表只是给算法结构化和提取带来困难的科学信息的几个例证。大数据储存库之间的关系质量最终取决于用于创建它们的分析模型技术。今天,计算算法和统计分析被广泛用于增强型大数据。虽然这些技术对丰富与扩展数据很重要,但神经网络、深度学习模型和机器学习工具也只能为我们做这些。从科学数据中获得有用的洞察力所必需的分析模型是复杂的和微妙的——它们还必须得到专家的智力支持。

当涉及到解释复杂的研究和发现不同的化学数据之间的创新联系时,人类的智力仍然是一个重要的组成部分。有经验的化学家、生物化学家和数据科学家能够分析数据并提供任何人工智能系统都无法做到的深刻见解。

在CAS,数百名化学科学领域的专家们在公开披露的数据中识别和收集关键创新信息、物质、反应、属性,精心深度加工和丰富科学信息。这些“服务于科学的科学家们”每天阅读文献,积累大量的知识,从而帮助他们揭示那些仅靠技术无法发现的见解和趋势。由此产生高质量、丰富的“数据湖”,当“数据湖”与先进的数据分析工具相结合时,就会在推动商业战略和科学创新的商业化方面发挥越来越重要的作用。