]> Git — Sourcephile - gargantext.git/blob - src/Gargantext/Text/Samples/CH.hs
[WORKFLOW] Unsupervised ngrams extraction implemented.
[gargantext.git] / src / Gargantext / Text / Samples / CH.hs
1 {-|
2 Module : Gargantext.Text.Samples.CH
3 Description : Sample of Chinese Text
4 Copyright : (c) CNRS, 2017 - present
5 License : AGPL + CECILL v3
6 Maintainer : team@gargantext.org
7 Stability : experimental
8 Portability : POSIX
9
10 Source: Wikipedia
11 Page : text mining
12
13 -}
14
15
16 {-# LANGUAGE NoImplicitPrelude #-}
17
18 module Gargantext.Text.Samples.CH where
19
20 import Data.String (String)
21
22 textSample :: String
23 textSample = "文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签 注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理和分析方法,将文本转化为数据进行分析"
24