Wayback Machine – 防止网页失效丢失的网站时光机(写于:20200208)

开篇先跟大家说一下,这篇文章本来是用来介绍一个网盘 NoFile.io 的,但很不幸的是经人提醒这个网盘已经挂了,所以文章也就失去了意义。但我不喜欢一篇已经无意义的文章继续存在,不仅占用博客服务器内存,增加无用的数据库数据,还容易误导新来的朋友。所以,我将这篇文章进行了重写,来介绍我本来准备新发布的 Wayback Machine 这个服务。我之所以这么做主要是为了防止直接删除导致的搜索引擎链接失效,还有博客服务器残留原有文章资源的问题。因此如果大家看到文章发布时间不太对,还有底下的评论和文章无关等问题,还请谅解。

Wayback Machine 介绍

名称:Wayback Machine

官网:https://web.archive.org

不知道大家平时有没有遇到过这样的问题,就是一个网页你本来看过,但是回过头再点开时,却发现网页已经是面目全非(就像博主我写的这篇博文一样),或者是直接报 404 错误看不到了呢?这种问题相信大家上网应该都遇到过,比如被删的微博,被删的新闻之类的。

一般遇到这种问题的时候,解决办法无外乎几种,比如自己本地建个网页存档,将网页收藏到印象笔记这样的笔记服务里,或者直接截图保存网页内容。以上这几种虽然给自己看没什么大问题,但是不能很方便的将自己保存的网页分享给别人看,再加上本地存档遇到新闻这种东西时,因为存档人可以随意改动网易数据内容,也很难让人信服,这种时候,就需要用到 Wayback Machine 网站时光机了。

Wayback Machine 中文名字叫网站时光机(为了方便,后文就直接说中文译名了),这个网站提供一项服务就是将你请求的网址对应的网页,给你在线保存下来。因为是直接通过网站时光机的服务器来拉取的网页,保存也是保存在他们的服务器里,因此在保存网页分享的便利性和数据防篡改方面都比较有保证。

对于网站时光机这个网站,如果大家仔细看的话应该能发现它的官网用的是个子域名。没错,实际上网站时光机只是 https://archive.org 这个网站提供的其中一项服务。如果你不知道这个网站,那么让我们来看看 https://archive.org 这个网站所对应的组织是干什么的吧,以下内容引用自中文维基百科“互联网档案馆”词条:

互联网档案馆(英语:Internet Archive)是一个非营利性的数字图书馆组织。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。迄至2012年10月,其信息储量达到10PB。除此之外,该档案馆也是网络开放与自由化的倡议者之一。

其数据是由自带的网络爬虫自动搜集的,其网站典藏档案馆网站时光机,抓取了超过1500亿的网页。

其年度预算约为1000万美元,来源则是其网页爬虫服务、合作关系、赞助以及卡利-奥斯丁基金会。总部位于旧金山里奇蒙德区,此地雇员只有数十人,大部分雇员工作于书籍扫描中心,在红木城也有数据中心。

该数据库是国际互联网保存联盟成员,2007年被加利福尼亚州选为官方指定图书馆。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏。

引用自中文维基百科“互联网档案馆”词条

看了上面的介绍,大家应该知道对互联网档案馆这个组织有了一定的了解了,我这里说的网站时光机也正是他们所提供的众多存档服务之一,其它的还有图书、音频、视频等存档服务,因为篇幅有限这里就不多说了,感兴趣的可以自行了解下。

使用介绍

首先给大家看看网站时光机的首页,重要的地方就是下面那两处:

说明已经给大家放在截图里了,就不额外再说了,给大家看看实际效果吧!

下面这个图是我的博客 24点半的首页在网站时光机上已存在的存档,看我文字写的那里是首页的时间线,右边年份有显示黑色条的就是存在存档的版本,底下的日历有标注的日期就是指存在存档&该存档创建的日期。

这里要说的一点是,因为网站时光机是按时间来存档的,而不是一个网址只能存档一次,所以大家可以很方便的看到一个网页在不同时间里显示出来的内容。举个例子,如果大家去查找 google.com,可以网站时光机在很久以前就开始存档谷歌的首页,点开之后能看到远古时期谷歌的网页和现在的网页分别是什么样子的。

再来给大家演示下网页存档的功能,这里就以本篇博文为例子吧,正好我写完之后这篇博文的内容就和前面的写的完全是两个东西了。

保存网页存档成功之后,你会获得一个网址,代表的是什么时候保存的什么网页,打开这个网址就是你保存成功的网页存档了:

给大家看看我这篇文章在更新内容之前的内容,大家应该也发现了和现在这篇文章已经算是两篇文章了(PS:文章中的图片看不到是因为我已经更新了图片,缩略图的链接有变化):https://web.archive.org/web/20200207201325/https://hikami.moe/world/expo/1783.html

另外,如果你不喜欢每次都得打开网页才能存档网页的话,网站时光机还有浏览器可以用,能让一个网页失效时让你查看已存档的版本或者快速的存档一个网页。

Chrome 扩展:https://chrome.google.com/webstore/detail/wayback-machine/fpnmgdkabkmnadcjpehmlllkndpkmiak

Firefox 扩展:https://addons.mozilla.org/firefox/addon/wayback-machine_new/

Safari 扩展:https://safari-extensions.apple.com/details/?id=archive.org.waybackmachine-ZSFX78H3ZT

其实还有 APP 可以用的,不过博主临时犯懒,不想贴太多链接,大家想下的话去官网就能看到链接了。

PS:Firefox 浏览器的官方扩展有个坑的地方就是,它判断一个网页不可用的标准有点迷,总会莫名其妙的显示这个网页无法访问要不要看看存档版本的提示窗口,很影响体验还不能关闭,因此这里非必要的话建议大家去找找别的第三方扩展代替。Chrome 那边博主不太清楚。

结束

OK,基本上给大家介绍完这个服务了,希望大家能记住这个网站,因为有时候还是挺有用的。什么?你让我举个例子?emmmm,除了没事看看一个网站页面风格的变化外,它还能用于存档已知即将消失或未知但你不想让其在未来消失的网页,这方面大佬们用的比较多,比如常见于存档已删除的微博,新闻门户网站的新闻存档之类的。

不过东西虽然好,但也是有局限性的。首先它只能存档能公开访问的网页,其次,如果存档的网页或网站有 Robots.txt 文件并且禁止了网站时光机的爬虫的话,网站时光机是会遵守规则不对这个网页/网站进行爬取的。遇到不让爬取的,大家可以换用 https://archive.is/ 试试,这是另一个类似于网站时光机的网站,也比较出名,但不及网站时光机的名声(好的方面),这里只跟大家简单提一下就不再额外介绍了,反正功能差不多就是了。=_=

好了,就说这么多了。希望大家能发现更多有用的互联网服务,让生活更精彩~

文章标题:Wayback Machine – 防止网页失效丢失的网站时光机(写于:20200208)
本文作者:希卡米
链接:https://hikami.moe/world/expo/1783.html

如非文内特别说明,博客内作品均默认采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
知识共享许可协议

评论

  1. 白白
    4 年前
    2019-12-29 19:10:50

    2019/12/29 nofile.io无法访问

    • 萌茶
      白白
      4 年前
      2019-12-29 23:57:47

      谢谢,应该是挂了……我更新说明下。

发送评论 编辑评论

|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇