数据囤积:领域资源参考

来自Wired
跳到导航跳到搜索
2023-12:由于wiki:记一次联通宽带限速事件影响,所有bt(包括pt)保种已停止。
2024-03:近期有大量未知底细(疑似中和pcdn产生的大量上传)的吸血peer,您可以参考此文档,屏蔽此类客户端、ip段,以免浪费带宽资源。
2024-04:我有建立一个发资源的傀儡站的想法,负责一些非公共项目的资源托管并避免系列站点遭受DMCA或无关流量,计划文件托管于谷歌云盘/mega/大盘鸡VPS,但得等我有稳定工作后才能实施,若您有(免费且)稳定的团队盘等渠道欢迎同我联系提前布局。

前言

  想了想,还真不好下笔。。。

  一者,领域太多太杂太乱,我个人功底尚不足;二者,不管我怎么理想化数据收藏癖,可实际上我自己就是各领域的过客,除了增加服务器负担外,很难留下痕迹,这可能对那些领域来说是不友好行为;三者,集中式的索引像是现成饭,吃多了可是会丧失成为数据收藏癖的三大要素之“收集力”的;四者,我之前也没好习惯,很多本地的东西都没留来源,或者来源非bt/存活网盘。故本页只做兔子洞用途,会罗列一些数据供以参考,若感兴趣请自行索引相关信息。

  BT资源说明体积的是我在做种的,停止做种=nas/硬盘坏掉,虽然有公网+端口转发,但我上行带宽很小,而且不止BT流量,还有PT流量,和自托管的一些流媒体服务器(虽然就我自己在内网场景用),权做保底用途,以抵消潜在的吸血用户隐患。请尊重BT环境,不要用吸血雷等工具,下载完成后尽力做种。

 

宗门

Internet Archive

  • https://archive.org/
  • 集大成的宝库,或许很多人因网页快照而得知,但它真正的宝藏是存档的各式资料与数据集,比如:eBooks and TextsMoving Image ArchiveAudio ArchiveThe Internet Archive Software CollectionImage,以及众多由无数用户上传的各式文件。
  • 但由于比较正规,所存档内容多为版权公共领域,但又由于体量,那一小部分也是非常多;个人用户自行上传的内容虽不会进行严格审查,但被举报(收dmca)还是有很大概率被删除;都提供了bt渠道。

Archive Team

  • https://wiki.archiveteam.org/
  • 致力于存档互联网、保存数字遗产的众包团队,官网主要是记录正在进行的任务与其相关的资讯,文件主要托管于IA
  • 他们(的成员)还创建了一系列用于归档网页的工具同时将归档的资源上传到了IA,如:WikiTeam

the-eye.eu

  • https://the-eye.eu/
  • 与Archive Team相比,它们侧重点与体量不同,AT在于镜像站点,目标是互联网站点及其产生的数据;它(与传统的)在于资源本身,或会触及版权(雷就是#Open_Directory)。
  • 2021年10月因设备故障而关闭,由于经济、工作人员的精力及时间问题,2022年开始重建,但始终未能恢复此前所拥有的资源,不过正逐步的推进更多的项目,如reddit/推特/tg的部分类型内容备份及其他站点、资源的镜像,只能说未来可期。
  • 因为它的体量和我个人的偏见问题,将其放于此处,对于类似(介于它和一般OD站点间:体量、涉及、稳定性)的项目可以移步:#DDL

 

comfy box

Save The Web Project(中文)

 

the Great 78 Project

 

藏宝图

BT

本篇文章的核心是资源项目,后续或许会拓展一些资源社区,但考虑到bt领域的体量、OSINT项目与本页重复内容造成的冗余,就不尽数移植过来了:

  • 影视方面BT:osint.md#二级目录-01Y-BT社区
    • 反正我只用:新rarbg(搜索栏输入tt号/标题等其加载就行无需回车,1080p普遍1-2GB,码率不高,但巧了,我要求也不高)、Rutracker(有些资源删掉了原音轨,或直接将俄语译文盖到了原音轨上就很头大)、1337x;再找不到的就去pt站(猫/馒头/ipt)看看;还找不到但又想看看一下xerlpredb站看是否有scene资源,有的话可以在pt站求种;还找不到就不看也罢。但这一切的前提是有中文字幕,不然也懒得找。
  • ACG方面:osint.md#一级目录-12X子兴趣 -ACG专区
    • 反正我主要是线上看,dmhy/nyaa等bt站一些冷门作断种情况比较严重,不行就是找vcb资源(硬通货,做种情况良好,但一般不配字幕)+字幕或pt站(u2),缺点是体积有些大,我的眼配不上。
  • 一些大型bt站的另一些可取之处就是数据集、大包,如:
  • 对于PT,见:PT

Anna's Archive(电子书)

  • https://annas-blog.org/
  • https://annas-archive.org/torrents
  • 主要是zlib的镜像,和最近一个漫画的存档。
  • 发展愈来愈壮大 ,目前正朝着镜像电子书(书籍、论文、杂志、漫画)的方向不断前进、拓展着数据集(libgen.rs/li、Sci-Hub、zlib、IA图书馆、读秀(5.0+?));可在线搜索及缓慢下载(赞助可高速),数据集以bt方式分发。
  • 很怕走zlib的老路,希望在这之前诸般资源都能以bt方式分发,出了种,火种就能延续下去。

Academic Torrents(数据集)

  • https://academictorrents.com/
  • 学术种子,主要是各类(具有学习研究及教育用途的而不一定要学术性的)数据集、课程。
  • 由于部分(比如常用的amy/imm一流)机场屏蔽了域名中含“torrent”的网站,可用其他代理或tor访问站点。

4chan /t/ (磁力分享)

 

P2P

DC++

Soulseek

  • https://www.slsknet.org/news/
  • 虽然不限制类型,但公认是分享音乐资源,但很多分享flac的人都上了锁,一般要交换资源,公开资源多为320kbps。

其他的诸如日本的Perfect Dark(需要开放端口,即得有公网)类soulseek但热度太低,资源量不够看;IPFS(之前还有个ipfs-search.com但关了)、Resilio Sync只是作为工具依附于各种项目,就不列举了。

 

XDCC

推荐客户端:HexChat,由于众所周知的原因,因为网络波动,连接质量或许会很差;有了下载指令,在对应的irc服务器的频道内(bot所在)复制粘贴发送即可。

※ 提供服务的:

IRCHighWay(电子书)

  • https://irchighway.net/
  • irc地址:irc.irchighway.net/6697
  • 加入书籍频道:/join #ebooks
  • 搜索书籍:@search 关键词
  • 下载书籍:如果收到压缩包,解开后里面是txt文件,是索引出的结果,选一个(是弄好的下载命令)复制粘贴从该频道发出去,再接收电子书即可。

※ 提供索引的:

NIBL(动漫)

xdcc.eu(综合)

sun dcxx(综合)

asthenia(综合)

  • irc地址:irc.rizon.net
  • 加入nibl频道:/join #asthenia

动漫的还有个animk.info,但是我这边看着站点有些损坏;其他还有些不是专门做xdcc的,比如动漫的subspleaseAniDex;之前有个索引+下载客户端littleweeb,但现无人维护,不知道原因是否为索引目标的失效。

 

Warez论坛

※ 基本上都是注册可见资源区;OSINT分发包“待验证内容”中还有一些邀请制的站点;。

  • mobilism | 电子书/有声书/软件 | https://forum.mobilism.me/
  • dpgroup.org | 电子书/有声书 | https://www.dpgroup.org/forum/ | 我这里gmail无法注册,protonmail正常接收验证码;论坛规定需家庭ip注册和访问,不能使用代理,以及一人一生一号政策,具体实施力度未知(毕竟开放注册,而且我用的代理,还是垃圾节点访问的)
  • mvgroup | 纪录片 | https://forums.mvgroup.org/
  • Novanon | 综合 | https://novanon.net/ | 文件托管方式取决于上传者,有一个文件托管平台白名单,内为非限速网盘或主流的网赚网盘,整体质量很好
  • Компьютерный форум Ru.Board | 综合 | http://forum.ru-board.com/
  • Nsane | 软件 | https://nsaneforums.com/

 

Open Directory

资讯可以参阅:

一些FTP索引项目:

一些工具:

利用谷歌搜索引擎的替代前端:

可编程搜索引擎:

开放站点(请勿滥用):

 

DDL

 

云服务

阿里云盘

谷歌云盘

Mega云盘

Telegram

Open Amazon s3 Buckets

 

藏宝洞

  标注了体积但无声明的为bt资源,非bt资源在标注体积时会说明类型;url有明显标识(如谷歌/mega等的服务)的不额外声明;无体积标识又无声明的请自行到站内查看。

  无标识的为暂无存档计划,【⚪】为计划或正在存档,【⚫】为已存档,【☯】为非项目类型(通常是信息索引)的存档或不完全存档(有说明),【⚈】为有瑕疵的存档(如部分数据损坏)。

书籍

Bibliotheca 镜像

Gutenberg 镜像

中文古籍 书格【⚪】

 

音乐

J-CORE 无损【⚫】

the /kpg/ torrent (kpop)

TLMC v5(东方无损音乐合集)

东方无损音乐合集(V.19)【⚫】【过时】

古典音乐【⚫】

  • Musica classica:43b0846fdff9ceee76bac8879ff636fac91318f1992.57 GiB
  • Decca Ultimate:086d35085c015a0bd115d7b4417df8ed4839f56548.13 GiB
  • 来源:4chan /t/

Redtopia

Myspace

 

/X/

pg【⚫】

The Temple of Solomon the King【⚫】

※ 以上两个mega链接疑似失效,不跳文件被删提醒,直接返回登陆页。

Library v1.5【⚫】

Fringe Library【☯】

 

Gal

GalGame

Galgame 汉化补档计划

 

动漫

AnimeThemes.moe - OP/ED合集视频备份【☯】

HDKirin的op/ed WebM 存档

动漫音乐/OST【⚫】

 

Flash

Flashpoint (网页游戏)

 

教育

IB课程

novelaileak

  • 磁力:5bde442da86265b670a3e5ea3163afad2c6f8ecc
  • 来源4chan,具体线程不定
  • 体积:52.06 GiB

Theoccult.click Content Leaked

 

粉丝向

呆伯特漫画档案【⚫】

海绵宝宝

战锤宇宙

宝可梦

/sug/(Steven Universe)

coomer 迷因

 

其他

信息图表集合

osu!谱面包【⚫】

Thingiverse 镜像【⚪】

opensubtitles.org 字幕转储【⚫】

What.CD 镜像【⚫】

PlayStation 1 手册扫描

旧时代电台

近 200 万张公共领域图像的集中化

Common Crawl

  • https://commoncrawl.org/
  • 网络爬虫数据开放存储库,做的就是搜索引擎的活,扫描并存档页面的源代码等信息,作为数据集被训练模型或研究分析上有大用,但对于数据收藏癖而言没太大用途,因为对爬取的站点没有审查,而互联网上的随机页面大都是垃圾信息。

GeoCities 镜像/存档

博客/文章

 

秘境

猫汤

※ 猫汤算是大冷门作品中的热门作品,但也没有到资源繁多的地步,来来回回就那么些资源和汇编资源的人,dailynekojiru的about页面列举了一些资源、信息站点,除了一些特殊的(例如nyansitory提供了高质量扫图)不再重复收录。

资讯站点:

资源:

出版作品:

参考信息:

资源汇总:

  • 待创建

 

后末日生存

旧OICSp项目备份

维基百科 可视化阅读版本

 

后记

Q:本项目与OSINT项目中的站点有什么区别?

A:OSINT项目正在提纯,目的是将所有项目类、文章类资源分离出去:如libgen、zlib侧重点始终是站点本身,则归属OSINT项目,而Anna's Blog的侧重点(至少在收录时如此)是通过bt分发的镜像的图书集,总而言之,可以一次性获得数据集,且此用途远胜于其他用途的,归属于本项目(信息汇编章除外,此是对应话题的数据集,不受此限制)。