想采集电影资料,在国内找一个收集比较全面的网站,最后我锁定了mtime时光网:http://movie.mtime.com/movie/search/section/
经过分析发现,时光网的这个筛选结果页面html中,是用<div id="searchResultRegion"></div>
输出的列表,html代码中看不到列表内容,疑似用一种叫做ajax懒加载的技术手段实现的。
在筛选结果页面通过抓去HTML代码发现电影URL的常规方法在这里不管用,当然筛选结果页的翻页也不管用,因此需要用抓包工具把筛选结果的内部列表页URL找出来。如下: