
学爬虫这件事,很多人都会经历一个很尴尬的阶段:教程看了不少,requests、BeautifulSoup、XPath、Selenium 这些词也都不陌生,但真让你面对一个网站开始抓,脑子还是会空一下。
不是不会写代码,而是不知道该从哪一步下手;不是没学过方法,而是教程里的例子太干净了,和真实网页之间始终隔着一层。
所以我现在越来越觉得,学爬虫不能只靠看教程,最好手里有一批能反复拿来练的站点。这种站不一定要特别复杂,但一定要能覆盖你真正会碰到的场景:列表、分页、动态加载、无限滚动、登录、CSRF、JavaScript 渲染,甚至更进一步的反爬挑战。
这篇我就不再只写一个站了,直接整理一篇我觉得很适合拿来练爬虫的网站合集。里面有新手友好的,也有更接近真实世界难度的。你完全可以把它当成一个练习清单,按顺序一个个去做。
一、如果你刚开始学,先记住一个原则
不要一上来就去抓最复杂的网站。
很多人学爬虫学到一半就被劝退,不是因为自己不行,而是因为太早碰了不该碰的目标。比如刚学会一点 requests,就去挑战登录、Cloudflare、验证码、重度 JavaScript 渲染页面,结果当然会被打懵。
更稳的方式其实很简单:
先练静态列表和分页;
再练 Load More 和无限滚动;
再练登录、CSRF、Cookie;
最后再碰更接近真实反爬环境的场景。
你后面看到我推荐的这些站,基本也可以按这个思路来用。
二、这 6 个网站,很适合拿来练爬虫
1. Books to Scrape / Quotes to Scrape:最适合新手建立手感
网址:
如果你从来没系统练过爬虫,我最建议先从这一组开始。
Toscrape 本身就是一个公开的 Web Scraping Sandbox。Books 是一个适合初学者练习的虚构书店,Quotes 则提供了多种不同 endpoint,包括分页、滚动、JavaScript、延迟加载、登录和 ViewState 场景。
它最大的好处,是难度很顺。你一开始可以先抓书名、价格、库存、详情页链接,练 CSS Selector、XPath、分页抓取;然后再去 Quotes 里试滚动加载、登录、CSRF 这些更接近真实网站的问题。
这类站特别适合解决一个问题:把“我懂一点语法”变成“我能独立写完一个采集脚本”。
2. ScrapingCourse:很适合练常见网页抓取场景
网址: https://www.scrapingcourse.com
这个站我前一篇已经单独写过,但放在合集里它仍然值得保留。
它的特点是:不是只给你一个简单页面,而是把学爬虫时最常见的难点,拆成一组组场景页,比如电商列表、分页、Load More、无限滚动、登录、CSRF、Cloudflare、JavaScript 渲染等。官网当前首页就能看到这些挑战项。
我觉得它最适合那种“已经会一点 Python,也看过基础教程,但还没形成系统练习节奏”的人。因为它不是单一 demo,而更像一套有梯度的练习题。
你可以把它理解成:比 Books to Scrape 更丰富,又没复杂到一上来就把人劝退。
3. Scrape This Site:练习和讲解结合得比较好
网址: https://www.scrapethissite.com
这个站我一直挺喜欢,因为它不只是“给你一个站去抓”,还带一点教学味道。
官网直接把自己叫做 a public sandbox for learning web scraping,并且首页就有 Sandbox 和 Lessons 两个入口。
它的好处在于,你不是纯靠自己硬啃。很多时候,练爬虫卡住,不一定是写不出来,而是根本没想清楚这个页面到底在考你什么。Scrape This Site 在这方面会更友好一点,因为它不只是出题,也在帮你建立思路。
如果你属于“完全自己瞎试容易没方向”的类型,这个站会比单纯的测试页更适合你。
4. Web Scraper Test Sites:适合练分页、Load More、滚动和表格
网址: https://webscraper.io/test-sites
这是 Web Scraper 官方提供的测试站点集合。官方写得很直接:这些 site 可以用来训练,学习如何使用 Web Scraper。
它的页面设计很适合做场景化练习,当前就有:
普通电商列表页
带分页链接的电商站
AJAX 分页
Load More 按钮
滚动加载
表格练习页
这个站特别适合你拿来做“同一份逻辑,不同页面机制”的对照练习。比如同样是商品列表,你可以分别试一次普通分页、AJAX 分页和 Load More,练完以后你对网页加载机制的理解会清楚很多。
5. Infinite Scroll Full Page Demo:专门练无限滚动,很直接
网址: https://infinite-scroll.com/demo/full-page/
你这次提到这个链接,我觉得提得很好,因为它特别适合放进这种合集里。
它不是完整练习站,而是一个非常纯粹的官方 demo。页面自己就写明了,这个 full page demo 用来展示几个关键特性:整页滚动、URL 和 history 变化、脚本和嵌入内容的加载等。源码示例里也明确给出了 next page 路径和 append 逻辑。
这种链接的价值是什么?就是它非常适合你单点突破某一个场景。
如果你最近正好在练“无限滚动页面怎么抓”,那与其一头扎进复杂商业站,不如先把这种官方 demo 吃透。你可以练:
如何识别下一页路径
如何判断滚动加载本质上还是分页
如何模拟翻页而不是傻滚页面
如何处理 URL 变化和内容追加
这类站不花哨,但对理解机制特别有帮助。
6. web-scraping.dev:更接近真实项目,适合进阶练习
如果前面那些你已经练得差不多了,这个站很值得往后接。
它把自己定位成 a realistic e-commerce testing platform for web scraping developers,并且写明提供多个真实感比较强的场景,覆盖分页、认证、GraphQL API、CSRF 等内容,而且是 safe、legal、designed for learning。
我打开后能看到的具体练习项就已经很丰富了,比如:
静态分页
无限滚动
Load More 按钮
GraphQL 后台请求
隐藏在 HTML 里的 JSON 数据
基于 Cookie 的登录
iframe 登录
CSRF Token 限制
文件下载
阻断页和 referer 校验
简单 antibot challenge
这个站对我来说最大的价值,是它开始逼近“真实项目里你会碰到的问题组合”。所以我不建议零基础一开始就上它,但如果你已经练过前面那几类站,它会是很好的下一步。
三、如果你只想要一个练习顺序,我建议这样走
如果你现在就想开始,但又不想乱学,我建议直接按这个顺序来:
Books to Scrape —— 先练最基础的提取和分页
Quotes to Scrape —— 衔接滚动、登录、CSRF
Web Scraper Test Sites —— 对比普通分页、AJAX 分页、Load More、滚动
Infinite Scroll Demo —— 专门啃透无限滚动机制
ScrapingCourse —— 系统过一遍常见场景
web-scraping.dev —— 开始练更接近真实项目的组合问题
Scrape This Site —— 夹在过程中补思路、补讲解
这个顺序不一定最标准,但对新手很友好。因为它是从“先建立信心”,到“开始理解机制”,再到“逐步接近真实环境”。
四、最后说一句最实在的话
学爬虫最怕的,不是不��会,而是一直停留在“我好像懂了”。
很多人收藏了几十篇教程,结果半年过去,连一个完整的列表页脚本都没真正写完。问题不在于资料不够,而在于一直没把自己扔进真实一点的页面里去练。
所以我现在越来越相信,爬虫这门东西,最有效的学习方式从来不是继续囤教程,而是给自己找一批公开、可练、能反复做的站点,然后一个个跑通。
哪怕你今天只先把 Books to Scrape 的分页抓明白,或者先把 Infinite Scroll 的 full-page demo 研究透,价值都比再刷几篇“爬虫入门指南”更大。
说到底,学爬虫最关键的一步,不是继续看,而是真的开始抓。


评论