FastText

2024/4/21 21:08:50

论文笔记--Enriching Word Vectors with Subword Information

论文笔记--Enriching Word Vectors with Subword Information 1. 文章简介2. 文章概括3 文章重点技术3.1 FastText模型3.2 Subword unit 4. 文章亮点5. 原文传送门6. References 1. 文章简介 标题:Enriching Word Vectors with Subword Information作者&#xff1a…

脏话文本检测方案

目录1. 场景2. 方案3. 数据增强4. 代码1. 场景 在问答系统中用户问题可能存在违规情况,包含涉政、色情、辱骂文字的文本视为违规文本。本文提出一种违规文本检测方案, 本方案仅限于判断文本是否包含违规内容,属于文本分类问题。 2. 方案 方案…

自然语言处理从小白到大白系列(2)word Embedding从one-hot到word2vec

我们知道,对于我们的计算机来说,没有办法像人一样理解自然语言,在人工智能领域,这还有很长一段路要走,就算要直接处理自然语言,都很困难。因此,人们想办法把自然语言用数字的方式表示&#xff0…

解决fasttext内存不足无法读取模型的问题

fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。fasttext还能够用于有监督的文本分类。更赞的是,facebook提供了200多种语言的预训练模型和词向…