聚合导航，免费问AI，点击查看！

全部AI / AI写代码神器

服务商

开启上下文联想

快捷项

直通车

请使用python语言编写网络爬虫程序，爬取百度学术上查询的科研文献信息，网址为：http://xueshu.baidu.com/。使用已学的方法（如selenium库等）爬取文献信息，包括文献名称、作者、摘要、关键词、文献链接、来源期刊、发表年份、引用量、doi，并将其保存至csv文件中。要求以某一个关键词（如“数字经济”）进行搜索，爬取100条文献信息；再以两个相关的关键词（如“数字技术”、“数字化”）分别各爬取100条文献信息，直至获取到300条文献信息。然后，基于此对各年份发表的文献数量数据进行可视化，并开展简要分析。以年份为横轴，文献数量为纵轴，使用pyecharts绘制散点图。要求显示涉及的最近10个年份的文献数量，并将除此之外的其它年份的文献数量以其总数体现

```python import requests from bs4 import BeautifulSoup import csv import time from selenium import webdriver from pyecharts import Scatter # 定义函数来爬取单个关键词的文献信息 def crawl_single_keyword(keyword, num): driver = webdriver.Chrome() # 请确保已安装 Chrome 浏览器和相应驱动 url = f'http://xueshu.baidu.com/s?wd={keyword}&pn=0' driver.get(url) data = [] for i in range(num // 10): soup = BeautifulSoup(driver.page_source, 'html.parser') articles = soup.find_all('div', class_='sc_content') for article in articles: title = article.find('h3', class_='t c_font').text author = article.find('div', class_='sc_info').text.split('-')[0].strip() abstract = article.find('div', class_='c_font').text keywords = article.find('div', class_='sc_tags').text link = article.find('h3', class_='t c_font').find('a')['href'] source_journal = article.find('div', class_='sc_info').text.split('-')[1].strip() publish_year = article.find('div', class_='sc_info').text.split('-')[2].split(' ')[0].strip() citation = article.find('div', class_='sc_cite_cont').text doi = '' # 可能需要进一步解析获取 data.append([title, author, abstract, keywords, link, source_journal, publish_year, citation, doi]) next_button = driver.find_element_by_link_text('下一页') next_button.click() time.sleep(2) # 适当延迟，避免被反爬 driver.quit() return data # 定义函数来爬取两个关键词的文献信息 def crawl_double_keywords(keyword1, keyword2, num): data1 = crawl_single_keyword(keyword1, num) data2 = crawl_single_keyword(keyword2, num) return data1 + data2 # 爬取数据 data1 = crawl_single_keyword('数字经济', 100) data2 = crawl_double_keywords('数字技术', '数字化', 100) data = data1 + data2 # 保存数据到 CSV 文件 with open('academic_data.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['文献名称', '作者', '', '关键词', '文献链接', '来源期刊', '发表年份', '引用量', 'doi']) writer.writerows(data) # 统计各年份文献数量 year_count = {} for row in data: year = row[6] if year in year_count: year_count[year] += 1 else: year_count[year] = 1 # 获取最近 10 个年份 recent_years = sorted(year_count.keys(), reverse=True)[:10] # 准备绘图数据 x = [year for year in recent_years] y = [year_count[year] for year in recent_years] # 绘制散点图 scatter = Scatter("文献数量分布") scatter.add("", x, y) scatter.render() # 额外注意点： # 1. 百度学术可能有反爬虫机制，注意爬取频率和策略，避免被封禁。 # 2. 网页结构可能会变化，代码中的解析部分可能需要根据实际情况调整。 # 3. 对于一些复杂的网页元素获取，可能需要更细致的处理逻辑。 ``` [2024-12-10 03:59:45 | AI写代码神器 | 858点数解答]

热门AI查看更多

AI写代码神器

“AI写代码神器”擅长各种语言编程、解释代码、注解补充。在这里填写你的问题。如：写出java冒泡排序算法。

AI问答

一个入口掌握所有。在这输入任何问题，或者要AI输出的内容。

人民币大写转换

将阿拉伯数字转为人明币大写，如：数字1000转换为壹仟。

AI爆文标题助手

AI生成爆文标题，能够快速创作出极具吸引力的标题，促使短视频、自媒体文章的点击率与阅读量迅猛攀升。此处填写一个原始标题，如：一般人怎样打理自身的社交圈？

AI新闻评论

AI生成新闻评论。在这里填入新闻内容。

AI摘要生成

AI生成内容摘要。在此处填入需要生成摘要的内容，还可以输入4000字。

AI高端主持词

AI生成主持词，擅长团建、年会、婚礼、节日等场合的主持词编写。在这里填入主持场景，如：运动会

AI工作总结报告

AI快速生成周报、月报、日报、年终总结等各类总结报告。在这里简单输入工作目标、指标、成果，没有任何格式或特殊需求。如：计划年销售业绩1000万，实际完成800万。

歇后语提示

输入一个字，显示以这个字开头的歇后语

成语接龙

【推广】99元上云 [开发类]

阿里云99元2核2G服务器/年，199元2核4G服务器随心买。

5000 进入

今日油价 [生活类]

全国各省油价，实时更新。

1028万进入

图片互转base64 [开发类]

将图片转换为Base64编码，可以让你很方便地在没有上传文件的条件下将图片插入其它的网页、编辑器中。这对于一些小的图片是极为方便的，因为你不需要再去寻找一个保存图片的地方。

20万进入

时间转换器 [开发类]

时间戳转换器，时间、毫秒、秒、倒计时查看

4.5万进入

个人联系名片生成器 [生活类]

录入名字、电话、邮箱、个人介绍信息，生成二维码，可通过此码扫码添加微信联系人

2万进入

数独游戏 [娱乐类]

数独（Sudoku）是经典的9x9数字逻辑谜题。在有81个小格的九宫格内，玩家依据初始数字推理填入1 - 9的数字，要保证每行、每列以及每个3x3宫格中的数字都不重复。这款在线数独游戏有多难度可选，没有头绪时，可以点开答案看一下哦^_^

1.9万进入

经典推箱子 [娱乐类]

基于H5的经典推箱子小游戏，锻炼玩家的眼力和反应力，非常不错

27万进入

AI摸鱼五子棋 [娱乐类]

基于H5的五子棋人机对练，锻炼玩家的眼力和反应力，非常不错

7.5万进入

全部AI / AI写代码神器

服务商

更多选项

快捷项

直通车

“AI写代码神器”擅长各种语言编程、解释代码、注解补充。 在这里填写你的问题。如：写出java冒泡排序算法。

一个入口掌握所有。 在这输入任何问题，或者要AI输出的内容。

将阿拉伯数字转为人明币大写，如：数字1000转换为壹仟。

AI生成爆文标题，能够快速创作出极具吸引力的标题，促使短视频、自媒体文章的点击率与阅读量迅猛攀升。 此处填写一个原始标题，如：一般人怎样打理自身的社交圈？

AI生成新闻评论。 在这里填入新闻内容。

AI生成内容摘要。 在此处填入需要生成摘要的内容，还可以输入4000字。

AI生成主持词，擅长团建、年会、婚礼、节日等场合的主持词编写。 在这里填入主持场景，如：运动会

AI快速生成周报、月报、日报、年终总结等各类总结报告。 在这里简单输入工作目标、指标、成果，没有任何格式或特殊需求。如：计划年销售业绩1000万，实际完成800万。