WebCrawler first try
常见的仿站软件尝试
- wget -c -r -np -k -L -p 递归下载
- webCopy
- WinHTTrack
- Octoparse
- Teleport pro
遇到的问题
尝试后下载了一些html\css\js文件。但是没有达到我的要求。
我猜测的爬取原理,根据网站返回的index.html以及文件里指向的新文件路径进行递归下载。
这样的问题有:
- 无法对json文件里指向的材质包路径进行递归下载
- 无法读取指定网站文件夹的目录,导致不知道文件夹里有什么文件
- 假如有ftp://可能可以
需要进一步的研究学习
- 通过python实现对json文件里指向的材质包路径进行递归下载(感觉只能半自动)
- 读取指定网站文件夹的目录
开题缘由、总结、反思、吐槽~~
在找live2d模型的时候找到了 https://github.com/Eikanya/Live2d-model ,然后其中有个HSO的demo网站https://l2d.alg-wiki.com/。
然后一开始我想在自己页面做一个仿站,后来了解后只想把他里面的live2d的材质数据、贴图等爬下来。但是遇到了几个问题。
参考文献
WebCrawler first try
http://icarus.shaojiemike.top/2021/07/25/Work/network/example/webCrawler/