从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。具体要求如下:1. 采集数据完整,内容规范(即不包含特殊符号,如换行符、制表符等)。2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者;3. 代码逻辑结构清晰,语法规范。任务二 文本特征向量化 基于任务一的结果数据,针对“诗内容”,完成文本特征向量化(tf-idf值)输出。具体要求如下:1. 数据完整,内容规范(即数值化);2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者、文本特征向量(tf-idf值, 多列);3. 代码逻辑结构清晰,语法规范。任务三 数据统计分析 基于任务一的结果数据,完成诗词统计。具体要求如下:1. 统计每种诗类型的诗数量,结果数据保存为excel文件;2. 统计每个作者的诗数量,结果数据保存为excel文件;3. 对诗内容进行中文分词,并输出词云图;


任务一:从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。 解析:首先需要使用Python的requests库获取网页内容,然后使用BeautifulSoup库解析网页,提取出古诗的类型、题目、内容和作者信息。最后将提取到的信息保存为txt格式的文本文件。 代码如下: ```python import requests from bs4 import BeautifulSoup url = "https://so.gushiwen.cn/gushi/tangshi.aspx" response = requests.get(url) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') poems = soup.find_all('div', class_='typecont') with open('poems.txt', 'w', encoding='utf-8') as f: for poem in poems: poem_type = poem.find('strong').text.strip() title = poem.find('h3').text.strip() content = poem.find('div', class_='contson').text.strip().replace(' ', '').replace('\t', '') author = poem.find('p', class_='source').find_all('a')[1].text.strip() f.write(f'{poem_type}\t{title}\t{content}\t{author} ') ``` 任务二:基于任务一的结果数据,针对“诗内容”,完成文本特征向量化(tf-idf值)输出。 解析:首先需要读取任务一生成的txt文件,然后使用jieba库进行中文分词,接着使用sklearn库的TfidfVectorizer类计算tf-idf值。最后将结果保存为txt格式的文本文件。 代码如下: ```python import jieba from sklearn.feature_extraction.text import TfidfVectorizer with open('poems.txt', 'r', encoding='utf-8') as f: lines = f.readlines() poems = [line.split('\t') for line in lines] contents = [' '.join(jieba.cut(poem[2])) for poem in poems] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(contents) with open('poems_tfidf.txt', 'w', encoding='utf-8') as f: for i, poem in enumerate(poems): tfidf_values = ' '.join([str(value) for value in X[i].toarray()[0]]) f.write(f'{poem[0]}\t{poem[1]}\t{poem[2]}\t{poem[3]}\t{tfidf_values} ') ``` 任务三:基于任务一的结果数据,完成诗词统计。 解析:首先需要读取任务一生成的txt文件,然后统计每种诗类型的诗数量和每个作者的诗数量。最后将结果保存为excel文件。对诗内容进行中文分词,并输出词云图。 代码如下: ```python import pandas as pd from wordcloud import WordCloud import matplotlib.pyplot as plt with open('poems.txt', 'r', encoding='utf-8') as f: lines = f.readlines() poems = [line.split('\t') for line in lines] # 统计每种诗类型的诗数量 poem_types = {} for poem in poems: if poem[0] not in poem_types: poem_types[poem[0]] = 0 poem_types[poem[0]] += 1 df_poem_types = pd.DataFrame(list(poem_types.items()), columns=['Poem Type', 'Count']) df_poem_types.to_excel('poem_types_count.xlsx', index=False) # 统计每个作者的诗数量 authors = {} for poem in poems: if poem[3] not in authors: authors[poem[3]] = 0 authors[poem[3]] += 1 df_authors = pd.DataFrame(list(authors.items()), columns=['Author', 'Count']) df_authors.to_excel('authors_count.xlsx', index=False) # 输出词云图 contents = [' '.join(jieba.cut(poem[2])) for poem in poems] words = ' '.join(contents) wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate(words) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() ``` [2024-06-23 11:09:38 | AI写代码神器 | 1159点数解答]
- 从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。具体要求如下:1. 采集数据完整,内容规范(即不包含特殊符号,如换行符、制表符等)。2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者;3. 代码逻辑结构清晰,语法规范。任务二 文本特征向量化 基于任务一的结果数据,针对“诗内容”,完成文本特征向量化(tf-idf值)输出。具体要求如下:1. 数据完整,内容规范(即数值化);2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者、文本特征向量(tf-idf值, 多列);3. 代码逻辑结构清晰,语法规范。任务三 数据统计分析 基于任务一的结果数据,完成诗词统计。具体要求如下:1. 统计每种诗类型的诗数量,结果数据保存为excel文件;2. 统计每个作者的诗数量,结果数据保存为excel文件;3. 对诗内容进行中文分词,并输出词云图;(1159点数解答 | 2024-06-23 11:09:38)208
- 从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。具体要求如下:1. 采集数据完整,内容规范(即不包含特殊符号,如换行符、制表符等)。2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者;3. 代码逻辑结构清晰,语法规范。任务二 文本特征向量化 基于任务一的结果数据,针对“诗内容”,完成文本特征向量化(tf-idf值)输出。具体要求如下:1. 数据完整,内容规范(即数值化);2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者、文本特征向量(tf-idf值, 多列);3. 代码逻辑结构清晰,语法规范。任务三 数据统计分析 基于任务一的结果数据,完成诗词统计。具体要求如下:1. 统计每种诗类型的诗数量,结果数据保存为excel文件;2. 统计每个作者的诗数量,结果数据保存为excel文件;3. 对诗内容进行中文分词,并输出词云图;(2078点数解答 | 2024-06-23 11:15:17)197
- 使用pycharm从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。具体要求如下:1. 采集数据完整,内容规范(即不包含特殊符号,如换行符、制表符等)。2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者;3. 代码逻辑结构清晰,语法规范。任务二 文本特征向量化 基于任务一的结果数据,针对“诗内容”,完成文本特征向量化(tf-idf值)输出。具体要求如下:1. 数据完整,内容规范(即数值化);2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者、文本特征向量(tf-idf值, 多列);3. 代码逻辑结构清晰,语法规范。任务三 数据统计分析 基于任务一的结果数据,完成诗词统计。具体要求如下:1. 统计每种诗类型的诗数量,结果数据保存为excel文件;2. 统计每个作者的诗数量,结果数据保存为excel文件;3. 对诗内容进行中文分词,并输出词云图;4. 代码逻辑结构清晰,语法规范。(2961点数解答 | 2024-06-24 01:04:38)313
- 使用pycharm任务一从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。具体要求如下:1. 采集数据完整,内容规范(即不包含特殊符号,如换行符、制表符等)。2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者;3. 代码逻辑结构清晰,语法规范。任务二 文本特征向量化 基于任务一的结果数据,针对“诗内容”,完成文本特征向量化(tf-idf值)输出。具体要求如下:1. 数据完整,内容规范(即数值化);2. 结果数据保存为txt格式的文本文件,每一行包含一首古诗,具体包括信息:诗类型、诗题目、诗内容、诗作者、文本特征向量(tf-idf值, 多列);3. 代码逻辑结构清晰,语法规范。任务三 数据统计分析 基于任务一的结果数据,完成诗词统计。具体要求如下:1. 统计每种诗类型的诗数量,结果数据保存为excel文件;2. 统计每个作者的诗数量,结果数据保存为excel文件;3. 对诗内容进行中文分词,并输出词云图;4. 代码逻辑结构清晰,语法规范。(1021点数解答 | 2024-06-24 01:07:37)217
- import requests from bs4 import beautifulsoup def get_poems(): url = "https://so.gushiwen.cn/gushi/tangshi.aspx" response = requests.get(url) response.encoding = "utf-8" soup = beautifulsoup(response.text, "html.parser") # 获取所有的诗列表 poem_list = soup.find_all("div", class_="typecont") poems = [] # 遍历诗列表,提取相关信息 for poem in poem_list: # 获取诗类型 poem_type = poem.find_previous_sibling("div", class_="bookml").find("span").text # 获取诗题目(316点数解答 | 2024-06-24 00:59:22)205
- import requests from bs4 import beautifulsoup # 爬取唐诗三百首的内容 def scrape_data(): url = "https://so.gushiwen.cn/gushi/tangshi.aspx" headers = { "user-agent": "mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/89.0.4389.82 safari/537.36" } response = requests.get(url, headers=headers) if response.status_code == 200: soup = beautifulsoup(response.text, "html.parser") content_divs = soup.find_all('div', c(443点数解答 | 2024-06-24 01:16:00)244
- import requests from bs4 import beautifulsoup import pandas as pd url = "https://so.gushiwen.cn/gushi/tangshi.aspx" response = requests.get(url) soup = beautifulsoup(response.text, 'html.parser') # 提取所需数据 poems_data = [] for row in soup.find_all('tr', class_='tlist')[1:]: cols = row.find_all('td') type_ = cols.text.strip() title = cols.a.text.strip() content = cols.text.replace('\n', '').replace('\t', '') author = cols.text.strip() poems_data.append([type_, title, conte(120点数解答 | 2024-06-24 02:04:56)239
- 任务一:采集唐诗三百首内容 python import requests from bs4 import beautifulsoup import pandas as pd url = "https://so.gushiwen.cn/gushi/tangshi.aspx" response = requests.get(url) soup = beautifulsoup(response.text, "html.parser") poems = [] for poem in soup.find_all("div", class_="item"): title = poem.find("h1").text.strip() content = poem.find("p").text.strip() author = poem.find("span", class_="author").text.strip() poem_type = "唐诗" poems.append((15点数解答 | 2024-06-24 15:46:11)257
- import win32com.client import os def excel_to_pdf(input_file, output_file): # 确保输入文件存在 if not os.path.exists(input_file): raise FileNotFoundError(f"文件 {input_file} 不存在") # 创建 Excel 应用程序实例 excel = win32com.client.Dispatch("Excel.Application") excel.Visible = False # 不显示 Excel 窗口 try: # 打开 Excel 文件 wb = excel.Workbooks.Open(input_file) # 设置页面布局为 A4 横向 for ws in wb.Worksheets: ws.PageSetup.Orientation = 2 # 2 表示横向 (507点数解答 | 2025-03-10 15:48:12)147
- 帮我写一个批处理文件,内容如下: 1、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中p=的值改为"参数表.xlsx"中c列对应的值; 2、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中t=的值改为"参数表.xlsx"中b列对应的值; 3、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中s=的值改为"参数表.xlsx"中d列对应的值; 如: 参数表.xlsx中a列a1,a2,a3;b列1.5,2,3;c列为10,20,30;d列100,101,102; 文件.txt中的行 1:l p[54:a1] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=10,ed=1]; 2:l p[57:a2] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=11,ed=1]; 3:l p[67:a3] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=12,ed=1]; 文件.txt修改后为 1:l p[54(811点数解答 | 2024-12-05 12:58:37)218
- 帮我写一个批处理文件,内容如下: 1、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中p=的值改为"参数表.xlsx"中c列对应的值; 2、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中t=的值改为"参数表.xlsx"中b列对应的值; 3、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中s=的值改为"参数表.xlsx"中d列对应的值; 参数表.xlsx中a列a1,a2,a3;b列1.5,2,3;c列为10,20,30;d列100,101,102; 文件.txt数据 1:l p[54:a1] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=10,ed=1]; 2:l p[57:a2] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=11,ed=1]; 3:l p[67:a3] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=12,ed=1]; 文件.txt修改后数据 1:l p[54:a1(531点数解答 | 2024-12-05 13:20:42)224
- 帮我写一个批处理文件,内容如下: 1、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中p=的值改为"参数表.xlsx"中c列对应的值; 2、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中t=的值改为"参数表.xlsx"中b列对应的值; 3、如果在"参数表.xlsx"a列中的值找到与"文件.txt"中相同的值,则把此行中s=的值改为"参数表.xlsx"中d列对应的值; 参数表.xlsx中a列a1,a2,a3;b列1.5,2,3;c列为10,20,30;d列100,101,102; 文件.txt数据 1:l p[54:a1] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=10,ed=1]; 2:l p[57:a2] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=11,ed=1]; 3:l p[67:a3] 2000mm/sec cnt100 spot[sd=1,p=25,t=2.0,s=12,ed=1]; 文件.txt修改后数据 1:l p[54:a1(495点数解答 | 2024-12-05 13:22:26)196