商务服务
关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)
2024-11-03 09:14

#!/usr/bin/python #这里是解释器位置和python版本#-*- coding: utf-8 -*- #编码格式

关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)

"""@author: CuiXingYu

@contact: a15931829662@163.com

@software: PyCharm

@file: CVPR.py

@time: 2020/4/17 19:36"""

importreimportrequestsimportpymysqldefget_context(url):"""params:

url: link

return:

web_context"""web_context=requests.get(url)returnweb_context.textdefget_conn():"""建立数据库连接

:return:"""conn=pymysql.connect(#本机IP地址

host='127.0.0.1',#数据库用户名

user='root',#密码

password='101032',#需要操作的数据库名称

db='db_database07',

)#cursor对象 可以进行sql语句执行 和 获得返回值

cursor=conn.cursor()returnconn,cursordefclose_conn(conn,cursor):"""关闭连接

:param conn: 连接对象

:param cursor: cursor对象

ifcursor:

cursor.close()ifconn:

conn.close()defget_name():"""获取论文的名字 url 地址

:return:"""conn,cursor=get_conn()

url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)#find paper files

'''(?<=href="): 寻找开头,匹配此句之后的内容

.+: 匹配多个字符(除了换行符)

?pdf: 匹配零次或一次pdf

(?=">pdf): 以">pdf" 结尾

|: 或'''info=[]#link pattern: href="***_CVPR_2019_paper.pdf">pdf

link_list = re.findall(r"(?<=href=").+?pdf(?=">pdf)|(?<=href=').+?pdf(?=">pdf)", web_context)#name pattern: ***

name_list = re.findall(r"(?<=2019_paper.html">).+(?=)", web_context)for one,two inzip(name_list,link_list):

info.append([one,two])#sql语句 对数据库进行操作

sql = "insert into paperinfo(name,url) values(%s,%s)"

try:#执行sql语句

cursor.executemany(sql,info)

conn.commit()except:

conn.rollback()

close_conn(conn, cursor)defsaveContent_list(hotword ,number):"""插入数据库

:param hotword: 单词

:param number: 数量

#打开数据库连接(ip/数据库用户名/登录密码/数据库名)

conn,cursor=get_conn()

sql="insert into hotword (hotword,number) values (%s,%s)"val=(hotword,number)

cursor.execute(sql,val)#使用 fetchone() 方法获取数据.

conn.commit()#关闭数据库连接(别忘了)

conn.close()defget_hotword():"""爬取热词并统计数目

:return:"""url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)

name_list= re.findall(r"(?<=2019_paper.html">).+(?=)", web_context)

text= " "

for word inname_list:

text= text +word

word=text.split()

word_dict={}for w inword:if w not inword_dict:

word_dict[w]= 1

else:

word_dict[w]= word_dict[w] + 1a= sorted(word_dict.items(), key=lambda item: item[1], reverse=True)#sql语句 对数据库进行操作

for x ina:try:

word=x[0]

num=x[1]

saveContent_list(word,num)except:print("失败")

    以上就是本篇文章【关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)】的全部内容了,欢迎阅览 ! 文章地址:http://www.gawce.com/news/9239.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://22pru.gawce.com/ , 查看更多   
最新新闻
Stable Diffusion本地化部署超详细教程(手动+自动+整合包三种方式)
一、 Stable Diffusion简介2022年作为AIGC(Artificial Intelligence Generated Content)时代的元年,各个领
DLsite常见使用问题解答(09/13更新共99题)
汇总一般网民询问过我的问题,便于有相同问题的网民自行查询解答。读完文本带你全方面了解如何使用DLsite。笔者自身只是一般用户
判断怀没怀孕的小妙招有哪些 同房后6到7天怀孕最明显的征兆是什么
知道如何判断自己是否怀孕也是女性保护自己的一种方式。很多人不知道如何判断,也不想要孩子。当他们真正知道的时候,就太晚了。
友链查询
高效友链查询方法:提升网站SEO排名的秘籍随着互联网的不断发展,网站优化(SEO)已经成为了每个网站运营者都必须关注的重要环节
一年半来首次行动,贝莱德三季度大举加仓拼多多美股近30%
拼多多美股周二一度涨超8%。最近中国政策利好期间,拼多多截至10月7日十个交易日大涨50%。最新披露的文件显示,资管巨头贝莱德三
在多维数据分析模型的路上越走越远
数据分析和可视化一直是大数据时代的热门话题。如今这一个数据为王的时代,当你使用某个产品,划划手指,动动鼠标,甚至一颦一笑
专访陶国相:云南文投集团的“文化”大计
  来源:雪球App,作者: 财哥小作文,(https://xueqiu.com/5496548940/132535115)  2019年7月,华侨城集团“云南大会战”
【网络营销】搜索引擎SEO关键词排名百科网络推广
服务内容全部包含:1、文案写作:SEO软文,营销软文,关键词文案100元/千字(批量)2、网络推广:网络媒体、自媒体号、小红书、知
人物百度百科容易建立吗
创建人物百度百科并不是一件容易的事情,它需要遵循一定的步骤和规则,同时也需要准备相应的材料。以下是百科优化网yajje整理的
七七鱼竞价托管 始于2012年
一、专业的人,做专业的事俗话说:术业有专攻,那么百度竞价推广后台,也有很多的地方需要设置的,而有些企业招聘的员工,可能是
本企业新闻
推荐企业新闻