Posted 2021-07-25Updated 2026-03-04network2 minutes read (About 338 words)

WebCrawler first try

常见的仿站软件尝试

wget -c -r -np -k -L -p 递归下载
webCopy
WinHTTrack
Octoparse
Teleport pro

遇到的问题

尝试后下载了一些html\css\js文件。但是没有达到我的要求。

我猜测的爬取原理，根据网站返回的index.html以及文件里指向的新文件路径进行递归下载。

这样的问题有：

无法对json文件里指向的材质包路径进行递归下载
无法读取指定网站文件夹的目录，导致不知道文件夹里有什么文件
1. 假如有ftp://可能可以

需要进一步的研究学习

通过python实现对json文件里指向的材质包路径进行递归下载(感觉只能半自动)
读取指定网站文件夹的目录

开题缘由、总结、反思、吐槽~~

在找live2d模型的时候找到了 https://github.com/Eikanya/Live2d-model ，然后其中有个HSO的demo网站https://l2d.alg-wiki.com/。

然后一开始我想在自己页面做一个仿站，后来了解后只想把他里面的live2d的材质数据、贴图等爬下来。但是遇到了几个问题。

参考文献

https://www.shuzhiduo.com/A/E35pV9EAzv/

WebCrawler first try

http://icarus.shaojiemike.top/2021/07/25/Work/network/example/webCrawler/

Author

Shaojie Tan

Posted on

2021-07-25

Updated on

2026-03-04

Licensed under

#ftp python Crawler http live2d

Afdian.net Alipay

Buy me a coffee Patreon Wechat