定义

嘈杂的文本

嘈杂的文本是一种电子存储的通信,不能被一个正确分类文字矿业软件项目。在电子文档中,嘈杂的文本的特征在于HTML代码中的字母和符号之间的差异和作者的预期含义。

嘈杂的文本不符合规则,程序用于以特定语言识别和分类单词,短语和条款。惯用表达式,缩写,首字母缩略词和业务特定的Lingo都可以引起嘈杂的文本。它特别普遍非结构化在博客帖子中找到的文本,聊天对话,讨论线程和短信短信。其他潜在的原因包括拼写和标点符号的差,印刷错误和光学差的翻译(OCR.) 和语音识别程式。

也可以看看:模糊逻辑嘈杂的数据

这是最后更新的2012年5月

继续阅读嘈杂的文字

深入了解文本分析和文本挖掘

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭