定义

文本标记

文本标记是手动或自动添加的过程标签或者向非结构化数据的各种组件作为准备分析数据的过程中的一个步骤。标记发生在比分类更粒度的粒度,并且可以在洞察力方面提供额外的好处。一种常见的文本标记形式是“命名实体提取“。通过这种提取方法,可能会扫描一批非结构化数据,以识别人员,产品,组织,地点或日期的名称。这种方法可能有助于确定命名实体之间的相互作用。

标记可以手工完成,但也有计算机程序可以执行自动标记。当大多数关键参数都已知时,有些程序只是简单地使用规则和单词列表来适当地标记内容。然而,更复杂的系统使用先进的自然语言处理机器学习(基于前面的示例),可以为大型提供更高水平的精度和效率数据集。与基于规则和机器学习模型的两个分类随着时间的推移,倾向于扩展以允许更多的数据使用标记进行结构化。在对结构化数据进行分析时,所产生的智能可用于改进或扩展文本标记系统。

这是最后更新的2015年9月

继续阅读文本标记

深入了解商业智能数据挖掘

搜索数据管理
搜索AWS
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭