当前位置：首页 > news >正文

国内建筑网站开发板有什么用

news 2026/4/25 11:06:08

国内建筑网站,开发板有什么用,云南网页,邹城网站建设zc273500Day40 #xff1a;Python 爬取豆瓣网前一百的电影信息 1. 项目背景在这个项目中#xff0c;我们将学习如何利用 Python 爬虫技术从豆瓣网抓取前一百部电影的信息。通过这一练习#xff0c;您将掌握网页抓取的基本流程#xff0c;包括发送请求、解析HTML、存储数据等核心…Day40 Python 爬取豆瓣网前一百的电影信息 1. 项目背景在这个项目中我们将学习如何利用 Python 爬虫技术从豆瓣网抓取前一百部电影的信息。通过这一练习您将掌握网页抓取的基本流程包括发送请求、解析HTML、存储数据等核心技术。 2. 项目目标爬取豆瓣电影前一百部电影的信息包括电影名称、评分、评价人数和影片链接。将抓取的数据保存为CSV文件便于后续分析。 3. 核心工具 Python 3.x 作为编程语言。requests 用于发送 HTTP 请求。BeautifulSoup 用于解析 HTML 文档。pandas 用于数据存储和处理。CSV 文件格式用于存储数据。 4. 环境准备确保您的环境中安装了以下库。在终端中运行以下命令 pip install requests beautifulsoup4 pandas5. 数据抓取流程 5.1 确定目标网址我们需要爬取的目标网址为https://movie.douban.com/top250 5.2 发送请求使用 requests 库向网页发送请求获取网页内容。 5.3 解析HTML 使用 BeautifulSoup 解析获取的 HTML 文档。 5.4 提取电影信息从解析的内容中提取所需的电影信息。 5.5 数据存储将提取到的数据存储为 CSV 文件。 5.6 运行流程图 #mermaid-svg-iqhRxwq3Rtyd0UGT {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .error-icon{fill:#552222;}#mermaid-svg-iqhRxwq3Rtyd0UGT .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-iqhRxwq3Rtyd0UGT .marker{fill:#333333;stroke:#333333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .marker.cross{stroke:#333333;}#mermaid-svg-iqhRxwq3Rtyd0UGT svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-iqhRxwq3Rtyd0UGT .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .cluster-label text{fill:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .cluster-label span{color:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .label text,#mermaid-svg-iqhRxwq3Rtyd0UGT span{fill:#333;color:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .node rect,#mermaid-svg-iqhRxwq3Rtyd0UGT .node circle,#mermaid-svg-iqhRxwq3Rtyd0UGT .node ellipse,#mermaid-svg-iqhRxwq3Rtyd0UGT .node polygon,#mermaid-svg-iqhRxwq3Rtyd0UGT .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-iqhRxwq3Rtyd0UGT .node .label{text-align:center;}#mermaid-svg-iqhRxwq3Rtyd0UGT .node.clickable{cursor:pointer;}#mermaid-svg-iqhRxwq3Rtyd0UGT .arrowheadPath{fill:#333333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-iqhRxwq3Rtyd0UGT .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-iqhRxwq3Rtyd0UGT .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-iqhRxwq3Rtyd0UGT .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-iqhRxwq3Rtyd0UGT .cluster text{fill:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT .cluster span{color:#333;}#mermaid-svg-iqhRxwq3Rtyd0UGT div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-iqhRxwq3Rtyd0UGT :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 开始发送请求到豆瓣获取HTML内容解析HTML 提取电影信息存储数据到CSV 结束 6. 示例代码以下是完整的代码示例分为几个功能部分以便更好理解。 6.1 导入必要的库 import requests from bs4 import BeautifulSoup import pandas as pd6.2 发送请求并获取页面内容 def fetch_page(url):headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36}response requests.get(url, headersheaders)if response.status_code 200:return response.textelse:print(请求失败, response.status_code)return None6.3 解析HTML并提取信息 def parse_page(html):soup BeautifulSoup(html, html.parser)movies []for item in soup.find_all(div, class_item):title item.find(span, class_title).textrating item.find(span, class_rating_num).textnum_ratings item.find(div, class_star).find_all(span)[-1].text[:-3] # 去掉人评价link item.find(a)[href]movies.append({Title: title,Rating: rating,Number of Ratings: num_ratings,Link: link})return movies6.4 存储数据到CSV def save_to_csv(movies, filenamedouban_movies.csv):df pd.DataFrame(movies)df.to_csv(filename, indexFalse, encodingutf-8-sig)print(f数据已保存到 {filename})6.5 主程序 def main():url https://movie.douban.com/top250html fetch_page(url)if html:movies parse_page(html)save_to_csv(movies)if __name__ __main__:main()7. 数据分析与检查运行完毕后我们可以使用 pandas 读取 CSV 文件并检查数据 def load_and_check_csv(filenamedouban_movies.csv):df pd.read_csv(filename)print(df.head())print(f总电影数: {len(df)})load_and_check_csv()8. 样例输出执行后输出的 douban_movies.csv 文件中将包含如下示例数据 TitleRatingNumber of RatingsLink肖申克的救赎9.7732099https://movie.douban.com/subject/278\n这个杀手不太冷9.4626208https://movie.douban.com/subject/1309191\n霸王别姬9.6595214https://movie.douban.com/subject/1291546\n 9. 注意事项反爬虫机制豆瓣可能会使用反爬虫技术如果频繁请求可能会被封禁建议在请求之间加上延迟。合法合规请遵循使用网站的使用协议确保抓取信息不违反网站的政策。数据质量抓取到的内容质量可能会有所不同需要在处理和存储时多加注意。 10. 总结通过这个项目您学习了怎样使用 Python 爬虫从豆瓣网抓取数据。掌握了数据获取、解析和存储的基本流程。接下来可以尝试改进程序例如增加多线程支持、提取更多信息、抓取多个页面等以深入理解 Python 爬虫的潜力和应用。怎么样今天的内容还满意吗再次感谢观众老爷的观看。最后祝您早日实现财务自由还请给个赞谢谢

查看全文

http://www.hkea.cn/news/14407370/