刚才写了个程序来Download某个网站上的英语mp3..
2005-9-28 5:56:48
今天在网上找< 新概念英语>包括书和配套语音.找了好多网站,好不容易找到一个点子版本的教材,和相应的mp3语音.可是给出的mp3都是列表,有四个页面,每个页面有按照章节下载,总共加起来估计有300多个文件吧,每个文件大约在522k以内,也有不足于522k的.第四章节的都大于1m.
这么多的文件当然不会一个一个手动去download了.还是写个程序了get吧.为了简单起见,只分析这四个url地址里面的链接.首先先把这四个教材的url,加入,然后获得他们的sourcecode,解析里面符合以.mp3结尾的地址.然后把所有地址放到内存中.启动10个线程同步从内存中带下载的mp3地址来读取远程数据流.从而写到本地文件中去. 写文件的时候路径保持和远程路径一直,这个通过解析url就可以获得啦.
很快就下载完了.不到30分钟都下载完毕了,当然与网络状况有很大关系.
想起去年和这个类似的事情.公司有一批手机号码大约几十万个吧,想要得到这批号码的归属地,而且必须用ClassID=2&ClassChild_ID=19" target=_blank>中国移动上面那个地址查询.一个一个查询能折磨死人的.就是写了一个模拟提交号码的程序,然后解析返回的数据.从而得到准确的归属地..当时那个程序执行了一个晚上.把查询的结果按照省份--城市 分类保存下来的.
其实只要仔细琢磨,身边的很多事情都可以用程序来做的.
不过这个会给对方网站带来很大的流量.以及日志数据.
|