nlp-如何在svm.net中使用reuters-21578数据集进行文本分类?

codeday· 2019-11-14
本文来自 codeday ,作者 codeday
我刚刚启动了文本分类应用程序,并且阅读了很多有关此主题的论文,但是直到现在我还不知道如何开始,我觉得自己还没有完整的图像.我已经有了训练数据集并阅读了它的描述,并获得了SVM算法(SVM.Net)的出色实现,但是我不知道如何在该实现中使用该数据集.我知道我应该从数据集的文本中提取特征并将这些特征用作SVM的输入,所以任何机构都可以告诉我有关如何提取文本特征并将其用作SVM算法输入的详细教程,然后使用该算法对新文本进行分类?
而且,如果有关于使用SVM进行文本分类的完整示例,那就太好了.

任何帮助,将不胜感激.
提前致谢.

最佳答案
创建用于文本分类的功能可以像您想要的那样复杂.

一种简单的方法是将每个不同的术语映射到特征索引.然后,您将每个文档表示为每个术语频率的向量. (您可以删除停用词,加权词等).对于文本分类,您还将为每个向量分配标签.

例如,如果文档是句子:

John loves Mary

标签为“垃圾邮件”.

然后,您可能具有以下映射:

John : 1
loves: 2
Mary: 3

您的向量将变为:

1 1 2 1 3 1

(我假设每个要素的权重为一)

我不了解SVM.NET,但是大多数受监督的机器学习方法将接受基于向量的输入.