Telegram Group Search
Save The Web Project
实时推送已被存档的 BiliBili 视频: https://www.tg-me.com/+ibNyu3ZpXeJlMzU1
Bot已改造,实时 log 已开启,后续所有请求均会在该频道留档
Forwarded from tacwolfrevo
Please open Telegram to view this post
VIEW IN TELEGRAM
喜报!

历经 5 个月的打磨,Zeno v2 的 PR 合并了。

https://github.com/internetarchive/Zeno/pull/166
大家知道哪些还在用非主流编码的网站?(如 gbk、shift jis等,不局限于中文编码)

在处理非 utf8 的 html,找点现实例子做测试参考。👀
以防万一,建议各位备份一下自己的 GitHub repo。

ref: https://github.com/orgs/community/discussions/156515
update: https://www.githubstatus.com/incidents/jfvgcls9swln
Please open Telegram to view this post
VIEW IN TELEGRAM
平平无奇的三周。

STWP 2025 第 14 周周报

- 尝试了在 linux 上操作磁带机、使用 ltfs @yangyunfei @yzqzss
- 同步了部分 chinaxiv pdf

STWP 2025 第 15 周周报
- 鼓捣 MeiliSync @Ovler

STWP 2025 第 16 周周报
- c2025-4 @Ovler
Please open Telegram to view this post
VIEW IN TELEGRAM
存档误入深水区——If Summer is calling us

去年我在寻 Golang 写的 WARC archiver,然后发现了 Zeno。把玩一番,发现些问题,然后发 PR 修,慢慢就参与进去了。

两个月前,突然时不时蹦出些非 web archiving 领域相关的 GitHub 账号跑来 Zeno 这个冷门项目发奇怪的 issue 和 PR。我一开始还以为是啥新型社工攻击,问了开发者才知道是因为 Google Summer of Code,所以人们跑过来套磁。

定睛一看,果然 Zeno 在 Internet Archive 今年 Google Summer of Code 的预定范围内。
以前只说过但没了解过 GSoC ,它 FAQ 说,只要是18+在校生或者开源新手,就可以写份关于你想要做的项目的提案(proposal)申请参加。

然后再一瞅,什么,参加 GSoC 竟然有钱拿!如果人在中国,成功结项能拿到 3600$ 津贴(GSoC 根据各国的「人均平价购买力」来决定津贴数额,并设有上下限)。这下必须狠狠参加了。😂

于是我也交了份提案,内容主要是说做 Headless archiving、修 CSS parser、修现有 issue、写个类似 httpbin 的 dummy site 方便做 E2E 测试。

https://summerofcode.withgoogle.com/programs/2025/projects/afDanpOP

提交提案之后就是一个多月漫长的等待了,这期间也没完全闲着,糊了些PR。

GSoC 竞争还是挺激烈的,今年总共 13k 申请人,最终被接受的只有 1.2k。今年和我一同被入选 IA 的 GSoC contributor 只有 5 位。

这周联系上了我的 GSoC 项目导师,进了 IA 的 Slack 旁观了他们开周会,很酷,竟然看到了 Brewster Kahle 出现。🤩

又能做存档,又能线上观摩 IA,又能搓代码,还有米。接下来,就是要在这个暑假把提案给实现,通过中期和最终评估。

感谢 Google。虽然 Google 过去一年杀死了 goo.gl 短链、关闭了搜索快照。😅
感谢 Zeno 的开发者 CorentinB
感谢 @Ovler 检查我的 proposal 。
感谢 IA 。

这个夏天我们直接原地起飞。
儿童节快乐。
Please open Telegram to view this post
VIEW IN TELEGRAM
Save The Web Project
画吧的域名 haowanlab.com 过期了,被阿里云拿去竞拍,最终成交价拍出了 5210 元。

这域名有这么值钱吗。我不理解,震撼。
有没有域名玩家给大家解释一下?
今天(6月9日)是国际存档日(International Archives Day)
2025/06/11 11:24:33
Back to Top
HTML Embed Code: