Save The Web Project
实时推送已被存档的 BiliBili 视频: https://www.tg-me.com/+ibNyu3ZpXeJlMzU1
Bot已改造,实时 log 已开启,后续所有请求均会在该频道留档
Save The Web Project
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
竹白服务器已于 2025-04-02 11:09:10 -5min (UTC+8) 前关闭。
#share
https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
Diff
How crawlers impact the operations of the Wikimedia projects
Since the beginning of 2024, the demand for the content created by the Wikimedia volunteer community – especially for the 144 million images, videos, and other files on Wikimedia Commons – has grow…
Forwarded from tacwolfrevo
Please open Telegram to view this post
VIEW IN TELEGRAM
大家知道哪些还在用非主流编码的网站?(如 gbk、shift jis等,不局限于中文编码)
在处理非 utf8 的 html,找点现实例子做测试参考。👀
在处理非 utf8 的 html,找点现实例子做测试参考。👀
以防万一,建议各位备份一下自己的 GitHub repo。
ref: https://github.com/orgs/community/discussions/156515
update: https://www.githubstatus.com/incidents/jfvgcls9swln
ref: https://github.com/orgs/community/discussions/156515
update: https://www.githubstatus.com/incidents/jfvgcls9swln
平平无奇的三周。
STWP 2025 第 14 周周报
- 尝试了在 linux 上操作磁带机、使用 ltfs @yangyunfei @yzqzss
- 同步了部分 chinaxiv pdf
STWP 2025 第 15 周周报
- 鼓捣 MeiliSync @Ovler
STWP 2025 第 16 周周报
- c2025-4 @Ovler
STWP 2025 第 14 周周报
- 尝试了在 linux 上操作磁带机、使用 ltfs @yangyunfei @yzqzss
- 同步了部分 chinaxiv pdf
STWP 2025 第 15 周周报
- 鼓捣 MeiliSync @Ovler
STWP 2025 第 16 周周报
- c2025-4 @Ovler
Save The Web Project
🎉🎂 Save The Web Project 三岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
Please open Telegram to view this post
VIEW IN TELEGRAM
Save The Web Project
平平无奇的三周。 STWP 2025 第 14 周周报 - 尝试了在 linux 上操作磁带机、使用 ltfs @yangyunfei @yzqzss - 同步了部分 chinaxiv pdf STWP 2025 第 15 周周报 - 鼓捣 MeiliSync @Ovler STWP 2025 第 16 周周报 - c2025-4 @Ovler
STWP 2025 第 19 周周报
本周的产量同样稀少,记一点流水账吧。
- 用 Go 重写了两年前写的 https://github.com/Save The Web Project/com.saveweb/fdroidswh 小玩意,用于跟踪 F-Droid Repo 的应用更新,将源代码仓库推送到 SWH 存档。 https://service-fdroidswh.saveweb.org/
- 响应了 6 个画吧备份导出请求。
- dokuwiki dumper 小重构 WIP: https://github.com/Save The Web Project/com.saveweb/dokuwiki-dumper/pull/14
- 把我们的 Gentoo 服务器滚到了最新。
- 由于长期没有任务,停掉了所有的 tracker 。
本周的产量同样稀少,记一点流水账吧。
- 用 Go 重写了两年前写的 https://github.com/Save The Web Project/com.saveweb/fdroidswh 小玩意,用于跟踪 F-Droid Repo 的应用更新,将源代码仓库推送到 SWH 存档。 https://service-fdroidswh.saveweb.org/
- 响应了 6 个画吧备份导出请求。
- dokuwiki dumper 小重构 WIP: https://github.com/Save The Web Project/com.saveweb/dokuwiki-dumper/pull/14
- 把我们的 Gentoo 服务器滚到了最新。
- 由于长期没有任务,停掉了所有的 tracker 。
GitHub
GitHub - saveweb/fdroidswh: Extract Git/SVN repo urls from F-Droid index and submit to Software Heritage (softwareheritage.org)
Extract Git/SVN repo urls from F-Droid index and submit to Software Heritage (softwareheritage.org) - saveweb/fdroidswh
存档误入深水区——If Summer is calling us
去年我在寻 Golang 写的 WARC archiver,然后发现了 Zeno。把玩一番,发现些问题,然后发 PR 修,慢慢就参与进去了。
两个月前,突然时不时蹦出些非 web archiving 领域相关的 GitHub 账号跑来 Zeno 这个冷门项目发奇怪的 issue 和 PR。我一开始还以为是啥新型社工攻击,问了开发者才知道是因为 Google Summer of Code,所以人们跑过来套磁。
定睛一看,果然 Zeno 在 Internet Archive 今年 Google Summer of Code 的预定范围内。
以前只说过但没了解过 GSoC ,它 FAQ 说,只要是18+在校生或者开源新手,就可以写份关于你想要做的项目的提案(proposal)申请参加。
然后再一瞅,什么,参加 GSoC 竟然有钱拿!如果人在中国,成功结项能拿到 3600$ 津贴(GSoC 根据各国的「人均平价购买力」来决定津贴数额,并设有上下限)。这下必须狠狠参加了。😂
于是我也交了份提案,内容主要是说做 Headless archiving、修 CSS parser、修现有 issue、写个类似 httpbin 的 dummy site 方便做 E2E 测试。
https://summerofcode.withgoogle.com/programs/2025/projects/afDanpOP
提交提案之后就是一个多月漫长的等待了,这期间也没完全闲着,糊了些PR。
GSoC 竞争还是挺激烈的,今年总共 13k 申请人,最终被接受的只有 1.2k。今年和我一同被入选 IA 的 GSoC contributor 只有 5 位。
这周联系上了我的 GSoC 项目导师,进了 IA 的 Slack 旁观了他们开周会,很酷,竟然看到了 Brewster Kahle 出现。🤩
又能做存档,又能线上观摩 IA,又能搓代码,还有米。接下来,就是要在这个暑假把提案给实现,通过中期和最终评估。
感谢 Google。虽然 Google 过去一年杀死了 goo.gl 短链、关闭了搜索快照。😅
感谢 Zeno 的开发者 CorentinB 。
感谢 @Ovler 检查我的 proposal 。
感谢 IA 。
这个夏天我们直接原地起飞。
去年我在寻 Golang 写的 WARC archiver,然后发现了 Zeno。把玩一番,发现些问题,然后发 PR 修,慢慢就参与进去了。
两个月前,突然时不时蹦出些非 web archiving 领域相关的 GitHub 账号跑来 Zeno 这个冷门项目发奇怪的 issue 和 PR。我一开始还以为是啥新型社工攻击,问了开发者才知道是因为 Google Summer of Code,所以人们跑过来套磁。
定睛一看,果然 Zeno 在 Internet Archive 今年 Google Summer of Code 的预定范围内。
以前只说过但没了解过 GSoC ,它 FAQ 说,只要是18+在校生或者开源新手,就可以写份关于你想要做的项目的提案(proposal)申请参加。
然后再一瞅,什么,参加 GSoC 竟然有钱拿!如果人在中国,成功结项能拿到 3600$ 津贴(GSoC 根据各国的「人均平价购买力」来决定津贴数额,并设有上下限)。这下必须狠狠参加了。😂
于是我也交了份提案,内容主要是说做 Headless archiving、修 CSS parser、修现有 issue、写个类似 httpbin 的 dummy site 方便做 E2E 测试。
https://summerofcode.withgoogle.com/programs/2025/projects/afDanpOP
提交提案之后就是一个多月漫长的等待了,这期间也没完全闲着,糊了些PR。
GSoC 竞争还是挺激烈的,今年总共 13k 申请人,最终被接受的只有 1.2k。今年和我一同被入选 IA 的 GSoC contributor 只有 5 位。
这周联系上了我的 GSoC 项目导师,进了 IA 的 Slack 旁观了他们开周会,很酷,竟然看到了 Brewster Kahle 出现。🤩
又能做存档,又能线上观摩 IA,又能搓代码,还有米。接下来,就是要在这个暑假把提案给实现,通过中期和最终评估。
感谢 Google。虽然 Google 过去一年杀死了 goo.gl 短链、关闭了搜索快照。😅
感谢 Zeno 的开发者 CorentinB 。
感谢 @Ovler 检查我的 proposal 。
感谢 IA 。
这个夏天我们直接原地起飞。
Withgoogle
Google Summer of Code
Google Summer of Code is a global program focused on bringing more developers into open source software development.
Save The Web Project
画吧的域名 haowanlab.com 过期了,被阿里云拿去竞拍,最终成交价拍出了 5210 元。 这域名有这么值钱吗。我不理解,震撼。 有没有域名玩家给大家解释一下?
刚给画吧老板打了电话让他注意注销 ICP 备案以防域名被接盘侠滥用而背锅。
这应该是最后一次帮画吧了。
R.I.P.
R.I.P.