当前位置: 首页 > news >正文

中山企业做网站美食网站策划书范文

中山企业做网站,美食网站策划书范文,温州有没有专门的企业网站,网站开发工作周记一、什么是爬虫 爬虫是一种网络数据抓取的技术。通过编写程序#xff08;通常使用Python#xff09;#xff0c;爬虫可以自动化地访问网页#xff0c;解析网页内容并提取出所需的数据。爬虫可以用于各种用途#xff0c;如搜索引擎的索引#xff0c;数据分析和挖掘#x… 一、什么是爬虫 爬虫是一种网络数据抓取的技术。通过编写程序通常使用Python爬虫可以自动化地访问网页解析网页内容并提取出所需的数据。爬虫可以用于各种用途如搜索引擎的索引数据分析和挖掘以及自动化任务的执行等。爬虫可以模拟人类用户的行为例如点击链接、填写表单或提交请求以获取所需的数据。 二、爬虫的基本流程 目标确定确定需要爬取的网站或数据并分析目标网站的结构和规则。 发起请求使用HTTP协议发起请求获取目标网页的内容。可以使用Python中的requests库、urllib库等发送GET或POST请求。 解析内容对获取到的网页内容进行解析提取出需要的数据。常用的解析库有BeautifulSoup、lxml等可以根据网页的HTML结构进行定位和提取。 数据处理对爬取到的数据进行清洗、整理和处理例如去除空白字符、格式转换等。 存储数据将处理后的数据保存到本地文件或数据库中以备后续使用。可以使用Python中的文件操作、数据库操作等技术。 循环爬取根据需要可以设定爬虫程序的循环持续爬取更多的数据。可以设置爬取频率、爬取深度等参数。 反爬处理针对一些网站的反爬措施可以通过设置请求头部、使用代理IP、UA伪装等方式来绕过限制或识别。 异常处理对于网络请求或解析过程中出现的异常需要进行相应的异常处理例如设置重试机制、记录日志等。 三、基础知识 1、什么是URL URL是统一资源定位符Uniform Resource Locator的缩写它是互联网上标识资源的地址。URL指定了在互联网上的资源的位置和访问方式。通常URL由多个组成部分组成包括协议例如HTTP或HTTPS、主机名例如www.example.com、端口号可选、路径和查询参数等。通过URL我们可以在浏览器中打开网页访问网站和下载文件等。例如https://www.example.com/index.html就是一个URL指定了一个使用HTTPS协议主机名为www.example.com路径为/index.html的网页。 例如在浏览器打开一个网页点击键盘F12即可查看网页源码 如上即可找到网页的URL 2、统一资源定位符 uniform resource locator 1、http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80 是一种用于在计算机网络中传输超媒体文档的应用层协议。它是一种客户端-服务器协议客户端发起请求服务器响应请求并传输超文本如HTML和其他资源如图像、音频、视频等。HTTP使用TCP作为传输协议通常使用端口号80。它基于请求-响应模型客户端发送HTTP请求到服务器服务器根据请求返回相应的HTTP响应。HTTP请求通常包括请求方法如GET、POST等、URL、请求头和请求体等信息而HTTP响应包含响应状态码、响应头和响应体等信息。 2、https: 安全的超文本传输协议 security 默认端口 443 3、www.example.com 域名 用于标识和定位互联网上特定的计算机或网站的名称。它是由一串用点分隔的字符组成例如“example.com”。域名主要作为人类可读的标识符用于代替IP地址来访问网站。 在域名系统Domain Name SystemDNS中域名被映射到相应的IP地址。当用户在浏览器中输入一个域名时浏览器会向DNS服务器发送请求获取该域名对应的IP地址然后使用该IP地址与网站建立连接并获取网页内容。 域名通常由多个级别的标签组成从右到左依次表示不同级别的名称。例如在域名“www.example.com”中com是顶级域名example是二级域名而www是子域。 4、80 端口 port 端口号Port Number是在计算机网络中用于标识特定服务或应用程序的数字。它是一个16位的整数范围从0到65535。端口号与IP地址组合在一起用于唯一标识网络中的每个应用程序或服务。 5、/path/to/myfile.html 资源路径 6、?key1value1key2value2 参数 表示多个参数的拼接 7、#    锚点 锚点Anchor是用于网页内部导航的一种技术。它是通常在HTML文档中添加的一个标记用于将浏览器的视口定位到页面的特定位置。 当页面较长或包含大量内容时使用锚点可以方便用户直接跳转到页面中感兴趣的部分而无需手动滚动页面。锚点通常与超链接a标签结合使用用户点击超链接时浏览器会自动滚动到与锚点对应的位置。 四、前端代码 主要构成标签 !DOCTYPE html 声明为 HTML5 文档 html../html 是网页的根元素 head../head 元素包含了文档的元meta数据如 meta charsetutf-8 定义网页编码格式为 utf-8。 title..title 元素描述了文档的标题 body../body 表示用户可见的内容 div../div 表示框架 p../p 表示段落 ul../ul 定义无序列表 ol../ol定义有序列表 li../li表示列表项 img src alt表示图片 h1../h1表示标题 a href../a表示超链接 有如下前段代码 !DOCTYPE html htmlhead!-- 内嵌样式 --style typetext/cssbody{background-color:yellow;}p{font-size: 30px;color: springgreen;}/stylemeta charsetutf-8title兰智数加学院/title/headbodya hrefwww.anhuisjxy.com点击访问/ah1兰智数加www.anhuisjxy.com/h1h2Python爬虫/h2divp认识网页结构/pulliHTML/liliCSS/li/ul/div/body /html !DOCTYPE html声明文档类型为HTML。htmlHTML文档的根元素。head文档的头部用于定义文档的元数据和引入外部资源。 style内嵌样式用于定义页面的样式。meta charsetutf-8字符编码设置为UTF-8以支持显示中文字符。title定义页面的标题。body文档的主体部分包含了页面的实际内容。 a hrefwww.anhuisjxy.com点击访问/a超链接标签点击时会打开链接目标为www.anhuisjxy.com的页面。h1级别最高的标题标签显示文本兰智数加www.anhuisjxy.com。h2次级标题标签显示文本Python爬虫。div分割页面的容器。 p段落标签显示文本认识网页结构。ul无序列表标签。 li列表项标签显示文本HTML和CSS。 五、爬虫安装request 1、安装request包 计算机长按winR输入cmd将以下代码输入进去即可 pip install requests 2、pip 永久更换信号源pip安装模块速度太慢可以更换镜像源使用国内别人下载好的资源 pip config set global.index-url https://pypi.mirrors.ustc.edu.cn/simple/ pip config set install.trusted-host pypi.mirrors.ustc.edu.cn 六、get、post请求 GET请求 用于从服务器获取数据通过将参数附加到URL的末尾传递数据。在GET请求中参数以键值对的形式出现在URL中例如http://example.com/path?param1value1param2value2。GET请求的特点包括 GET请求可被浏览器缓存可以被浏览器历史记录记录下来。GET请求可以被缓存可以被收藏为书签。参数有长度限制一般不超过URL的最大长度限制通常为2048个字符。数据通过URL传递可见于URL地址栏。 POST请求 用于向服务器提交数据通过请求体传递数据。在POST请求中参数以键值对的形式出现在请求体中而不是URL中。POST请求的特点包括 POST请求不会被缓存不会被浏览器历史记录记录。参数没有长度限制可以传递大量数据。数据不会出现在URL中对安全性要求较高。 如下图查看URL、get请求\post请求以及content-type具体过程联系本文最上面一张图 content-type Content-Type字段由一个主类型比如text、image、application等和一个子类型如plain、html、json等组成用斜杠分隔。常见的Content-Type类型包括 text/plain纯文本text/htmlHTML文档text/cssCSS样式表application/jsonJSON数据application/x-www-form-urlencoded表单数据multipart/form-data通过表单上传文件image/jpegJPEG图片audio/mp3MP3音频video/mp4MP4视频 UA伪装 User-AgentUA伪装是一种技术手段用于欺骗服务器或网站使其认为请求来自于不同的设备或浏览器。UA指的是用户代理是HTTP请求头部中的一个字段用于标识发送请求的客户端信息包括设备类型、操作系统、浏览器等。 可以从下列图片查看即将右侧滚轮拉到最底下然后在最后一条就是User-Agent
http://www.hkea.cn/news/14344684/

相关文章:

  • 资讯网站建设网站建设预算和维护
  • 怎么做网站营销h5网站制作公司
  • 头像网站模板线上设计师做效果图
  • 珠海企业落户申请网站广州域名企业网站建站哪家好
  • 北京中兴时代网站建设美创网站建设优势
  • 怎么做网站黑链成立公司需要几个股东
  • dedecms如何做音乐网站免费网站模版
  • 网站建设 培训 南充二次开发包
  • 图书馆 网站开发 总结怎样做移动端网站
  • 云南旅游网站设计wordpress微信群导航主题
  • 模板网站seo天津市建设工程网站
  • 东营网站推广公司淮北发展
  • 企业网站开发工资搜狗网站
  • 天津专业网站制作流程优势做公司企业网站
  • 郑州高端网站建设网站制作软件平台
  • 网站注册地焦作网站设计
  • 如何做好网站页面设计原型图是什么
  • 要建设一个网站需要什么阿里云服务器创建多个网站吗
  • 深圳网站优化公司南京网
  • 电子商务物流网站建设嘉兴市城乡与建设局网站
  • 做seo网站推广价格浙江的健康码小程序叫什么
  • 黑龙江建设厅网站九江茶叶网站建设
  • 湛江建网站软件商店2023
  • 免费发布信息网有哪些网站台州自助建站在线咨询
  • 蓝色清爽网站泛微oa办公系统官网
  • 株洲能建网站的有哪些广州网站设计成功柚米
  • 如何提高网站排名seo做网站的ui
  • 建设通网站武义巨合汪志刚江苏住房和城乡建设厅官网
  • 一个网站怎么做2个服务器dw做的网页在网站图片不显示
  • 哪些网站自己做宣传网站兼容性