当前位置：首页 >>宝塔面板使用教程 > 正文

关键词如何按照相似度去重？文本内容如何删除类似的关键词？

Warning: Undefined variable $post_id in /www/wwwroot/yunfuwuqi.chinazhx.cn/wp-content/themes/lsw_FB6LDT/lsw/functions.php on line 221
百度：已收录 | 发布日期：2023-05-11 6:06:03 | 浏览：662 次

作为网站的seo人员可能很多时候我们都需要采集一些长尾词来给自己的网站获取更多的流量, 但是我们在拿到一份关键词的时候发现很多类似的关键词：

关键词如何按照相似度去重? 文本内容如何删除类似的关键词?

比如：

智能pos机小票抬头修改怎么弄的
智能pos机小票抬头修改怎么弄出来
智能pos机小票抬头修改怎么弄
智能pos机小票抬头修改怎么操作的
智能pos机小票抬头修改怎么操作
智能pos机小票抬头修改不了怎么回事
智能pos机小票抬头修改不了怎么办
智能pos机小票抬头修改不了

上面的关键词并不重复, 就是相似度比较高, 那么这个时候我们怎么才能删除一些相似度比较高的词? 其实也是比较的简单, 我们需要使用python 来实现, 如果你没有安装python环境, 那么我们需要先安装.

import Levenshtein

# 相似度阈值, 即两个文本相似度大于等于该值则进行去重操作
similarity_threshold = 0.8

# 读取文本文件中的所有行
with open('text.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()

# 对文本列表进行去重
for i in range(len(lines)):
for j in range(i+1, len(lines)):
similarity = Levenshtein.ratio(lines[i], lines[j]) # 计算文本相似度
if similarity >= similarity_threshold:
lines[j] = '' # 将相似文本从列表中删除

# 将去重后的文本列表重新写入到同一文本文件中
with open('text.txt', 'w', encoding='utf-8') as f:
for line in lines:
if line != '':
f.write(line)

这里的话我们需要新建一个text.txt文件, 然后把上面的代码复制到py的的文本里面, 然后运行就会发现我们保存的数据如下：

智能pos机小票抬头修改怎么弄的
智能pos机小票抬头修改怎么弄出来
智能pos机小票抬头修改怎么操作的
智能pos机小票抬头修改不了怎么回事
智能pos机小票抬头修改不了

这个时候我们在写文章的时候就可以写的关键词就不会重复率太高了. 当然你数据关键词比较多的时候处理起来可能需要等待一段时间.

上面的代码是什么意思? 可能很多小伙伴看不明白, 这里卡卡哥详细的说明下：

导入 Levenshtein 模块, 该模块是用于计算文本相似度的 Python 库.
设置文本相似度阈值（similarity_threshold）, 即两个文本相似度大于等于该值则进行去重操作.
使用 open() 函数打开一个名为 text.txt 的文本文件, 以读取该文件中的所有行, 并将它们存储到一个列表（lines）中.
遍历文本列表, 对于每一个文本, 遍历该文本之后的所有文本并计算其与当前文本的相似度（使用 Levenshtein.ratio() 函数）. 如果两个文本的相似度大于等于相似度阈值, 则将后一个文本从列表中删除.
将去重后的文本列表重新写入到名为 text22.txt 的文本文件中, 以存储去重后的文本内容.

具体每行代码的语义如下：

import Levenshtein：导入 Levenshtein 模块.
similarity_threshold = 0.9：设置文本相似度阈值为 0.9.
with open(‘./text.txt’, ‘r’, encoding=’utf-8′) as f:：使用 open() 函数打开名为 text.txt 的文本文件, 以只读模式打开, 并将其赋值给变量 f.
lines = f.readlines()：读取 f 文件中的所有行, 并将它们存储到一个列表（lines）中.
for i in range(len(lines)):：遍历文本列表 lines 中的每一项, 用变量 i 来表示当前遍历到的文本的索引值.
for j in range(i+1, len(lines)):：遍历文本列表 lines 中当前文本之后的所有文本, 用变量 j 来表示当前遍历到的文本的索引值.
similarity = Levenshtein.ratio(lines[i], lines[j])：计算当前两个文本 lines[i] 和 lines[j] 之间的相似度, 并将结果赋值给变量 similarity.
if similarity >= similarity_threshold:：如果当前两个文本的相似度大于等于相似度阈值, 则执行下面的代码.
lines[j] = ”：将后一个文本从列表 lines 中删除.
with open(‘./text22.txt’, ‘w’, encoding=’utf-8′) as f:：使用 open() 函数打开名为 text22.txt 的文本文件, 以写入模式打开, 并将其赋值给变量 f.
for line in lines:：遍历去重后的文本列表 lines 中的每一项.
if line != ”:：如果当前遍历到的文本不为空（即没有被删除）,

点击展开全文

99%的人还阅读了：

如何将几个txt文本合并成一个本文，几个txt文本怎么才能聚合成为一个本文

很多时候我们可能采集的比较多的文章, 那么我们想把这些文章都聚合一下, 把三个txt的文本内容聚合到一起? 要实现每次合并前面三个txt文本的操作, 可以使用Pytho...

发布时间：2023年05月09
宝塔面板如何绑定域名网站；绑定了域名不能打开了

宝塔面板如何绑定域名网站, 现在搭建一个网站越来越简单, 直接可以买一个服务器搭建网站, 买一个阿里云服务器或者腾讯云服务器即可搭建网站, 那么我们搭建网站...

发布时间：2022年05月19
宝塔面板MYSQL如何升级图文教程；宝塔面板安装mysql

宝塔面板mysal如何升级图文教程, 很多时候可能由于网站的原因我们需要升级我们自己的数据库mysql, 使用的是宝塔面板, 其实就是比较的简单了, 我们直接在后台找...

发布时间：2022年05月18
宝塔面板怎么屏蔽某个ip段；禁止ip访问如何设置

宝塔面板怎么屏蔽某个ip段（禁止ip访问如何设置）, 很多时候我们查看网站的日志, 会发现很多页面被多个ip访问或者ip段一直在访问, 这样子的一般不是在扫描你的...

发布时间：2022年05月09

本文标签：Python脚本

你会喜欢

标签云

chatgpt学习代码 excel按照长短分数据 phpstudy php快速入门 Python脚本 wordpress wordpress6.0 WordPress不同分类调用模板 wordpress作者不同显示不同版权信息 WordPress修改密码 wordpress修改最后发布时间 wordpress分类目录标题 wordpress去掉title空格 wordpress后台语言切换 wordpress定时发布文章 wordpress插入图片 wordpress整站301 wordpress文章目录 wordpress标签tag函数 wordpress标签固定链接 wordpress登录启用cookies wordpress自动插入图片 wordpress自定义分类目录 wordpress调用作者 wordpress调用分类描述 wordpress连接数据库失败 wordpress链接中文转换拼音宝塔面板宝塔面板mysal如何升级宝塔面板屏蔽ip段宝塔面板绑定域名建网站手机页面左右晃动网站搬家腾讯云服务器腾讯云服务器工单处理时间腾讯云轻量级服务器路边摊买西瓜辞职全职做网站阿里云服务器

卡卡哥服务器教程网

关键词如何按照相似度去重？文本内容如何删除类似的关键词？

99%的人还阅读了：

如何将几个txt文本合并成一个本文，几个txt文本怎么才能聚合成为一个本文

宝塔面板如何绑定域名网站；绑定了域名不能打开了

宝塔面板MYSQL如何升级图文教程；宝塔面板安装mysql

宝塔面板怎么屏蔽某个ip段；禁止ip访问如何设置

热门文章

你会喜欢

标签云