数据囤积:领域资源参考
2023-12:由于wiki:记一次联通宽带限速事件影响,所有bt(包括pt)保种已停止。
2024-03:近期有大量未知底细(疑似中和pcdn产生的大量上传)的吸血peer,您可以参考此文档,屏蔽此类客户端、ip段,以免浪费带宽资源。
2024-04:我有建立一个发资源的傀儡站的想法,负责一些非公共项目的资源托管并避免系列站点遭受DMCA或无关流量,计划文件托管于谷歌云盘/mega/大盘鸡VPS,但得等我有稳定工作后才能实施,若您有(免费且)稳定的团队盘等渠道欢迎同我联系提前布局。
前言
想了想,还真不好下笔。。。
一者,领域太多太杂太乱,我个人功底尚不足;二者,不管我怎么理想化数据收藏癖,可实际上我自己就是各领域的过客,除了增加服务器负担外,很难留下痕迹,这可能对那些领域来说是不友好行为;三者,集中式的索引像是现成饭,吃多了可是会丧失成为数据收藏癖的三大要素之“收集力”的;四者,我之前也没好习惯,很多本地的东西都没留来源,或者来源非bt/存活网盘。故本页只做兔子洞用途,会罗列一些数据供以参考,若感兴趣请自行索引相关信息。
BT资源说明体积的是我在做种的,停止做种=nas/硬盘坏掉,虽然有公网+端口转发,但我上行带宽很小,而且不止BT流量,还有PT流量,和自托管的一些流媒体服务器(虽然就我自己在内网场景用),权做保底用途,以抵消潜在的吸血用户隐患。请尊重BT环境,不要用吸血雷等工具,下载完成后尽力做种。
宗门
Internet Archive
- https://archive.org/
- 集大成的宝库,或许很多人因网页快照而得知,但它真正的宝藏是存档的各式资料与数据集,比如:eBooks and Texts、Moving Image Archive、Audio Archive、The Internet Archive Software Collection、Image,以及众多由无数用户上传的各式文件。
- 但由于比较正规,所存档内容多为版权公共领域,但又由于体量,那一小部分也是非常多;个人用户自行上传的内容虽不会进行严格审查,但被举报(收dmca)还是有很大概率被删除;都提供了bt渠道。
Archive Team
- https://wiki.archiveteam.org/
- 致力于存档互联网、保存数字遗产的众包团队,官网主要是记录正在进行的任务与其相关的资讯,文件主要托管于IA
- 他们(的成员)还创建了一系列用于归档网页的工具同时将归档的资源上传到了IA,如:WikiTeam
the-eye.eu
- https://the-eye.eu/
- 与Archive Team相比,它们侧重点与体量不同,AT在于镜像站点,目标是互联网站点及其产生的数据;它(与传统的)在于资源本身,或会触及版权(雷就是#Open_Directory)。
- 2021年10月因设备故障而关闭,由于经济、工作人员的精力及时间问题,2022年开始重建,但始终未能恢复此前所拥有的资源,不过正逐步的推进更多的项目,如reddit/推特/tg的部分类型内容备份及其他站点、资源的镜像,只能说未来可期。
- 因为它的体量和我个人的偏见问题,将其放于此处,对于类似(介于它和一般OD站点间:体量、涉及、稳定性)的项目可以移步:#DDL
comfy box
- https://comfybox.floofey.dog/
- 数据囤积相关的社区,虽然热度不算高。
- 所有者的另一个站点,托管了一些文件:https://nnty.fun/downloads/
Save The Web Project(中文)
- https://blog.save-web.org/
- “一群业余 Web Archivist 的小型公益社团,为知识保存作点小贡献。”
the Great 78 Project
- https://great78.archive.org/
- 数字化、保存 78rpm 唱片的社区项目,内容尽皆上传至IA。
藏宝图
- https://oicsp.scio.eu.org/#信息索引
- https://oicsp.scio.eu.org/public/osint.html#一级目录-00x特殊-索引
- reddit.html#数据收藏癖
BT
本篇文章的核心是资源项目,后续或许会拓展一些资源社区,但考虑到bt领域的体量、OSINT项目与本页重复内容造成的冗余,就不尽数移植过来了:
- 影视方面BT:
osint.md#二级目录-01Y-BT社区
- ACG方面:
osint.md#一级目录-12X子兴趣 -ACG专区
- 反正我主要是线上看,dmhy/nyaa等bt站一些冷门作断种情况比较严重,不行就是找vcb资源(硬通货,做种情况良好,但一般不配字幕)+字幕或pt站(u2),缺点是体积有些大,我的眼配不上。
- 一些大型bt站的另一些可取之处就是数据集、大包,如:
- 英文vn大包、hanime及其他合集项目的:https://sukebei.nyaa.si/user/Connor_CZ
- 上传linux game的:https://www.1377x.to/user/johncena141/
- 但需要慢慢找,并且合辑的质量或参差不齐。
- 对于PT,见:PT
Anna's Archive(电子书)
- https://annas-blog.org/
- https://annas-archive.org/torrents
主要是zlib的镜像,和最近一个漫画的存档。- 发展愈来愈壮大 ,目前正朝着镜像电子书(书籍、论文、杂志、漫画)的方向不断前进、拓展着数据集(libgen.rs/li、Sci-Hub、zlib、IA图书馆、读秀(5.0+?));可在线搜索及缓慢下载(赞助可高速),数据集以bt方式分发。
- 很怕走zlib的老路,希望在这之前诸般资源都能以bt方式分发,出了种,火种就能延续下去。
Academic Torrents(数据集)
- https://academictorrents.com/
- 学术种子,主要是各类(具有学习研究及教育用途的而不一定要学术性的)数据集、课程。
- 由于部分(比如常用的amy/imm一流)机场屏蔽了域名中含“torrent”的网站,可用其他代理或tor访问站点。
4chan /t/ (磁力分享)
- https://boards.4chan.org/t/catalog
- bt版块,配合https://archived.moe/t/等备份站食用效果最佳;类似这种线程:rare / obscure torrents能当随机文章阅读碰运气。
P2P
DC++
- https://dcplusplus.sourceforge.io/
- 本身是支持群组的普通p2p文件共享工具,之前以漫画分享(一些公共的dc群)而出名,但这类传统工具都在逐渐没落/私有化,一些群组或许审核自己所共享的文件,以下是索引了一些公共(与私人hub对应)hubs:dchublist.biz、dchublist.org、hublist.eu、te-home.net
Soulseek
- https://www.slsknet.org/news/
- 虽然不限制类型,但公认是分享音乐资源,但很多分享flac的人都上了锁,一般要交换资源,公开资源多为320kbps。
其他的诸如日本的Perfect Dark(需要开放端口,即得有公网)类soulseek但热度太低,资源量不够看;IPFS(之前还有个ipfs-search.com但关了)、Resilio Sync只是作为工具依附于各种项目,就不列举了。
XDCC
推荐客户端:HexChat,由于众所周知的原因,因为网络波动,连接质量或许会很差;有了下载指令,在对应的irc服务器的频道内(bot所在)复制粘贴发送即可。
※ 提供服务的:
IRCHighWay(电子书)
- https://irchighway.net/
- irc地址:
irc.irchighway.net/6697
- 加入书籍频道:
/join #ebooks
- 搜索书籍:
@search 关键词
- 下载书籍:如果收到压缩包,解开后里面是txt文件,是索引出的结果,选一个(是弄好的下载命令)复制粘贴从该频道发出去,再接收电子书即可。
※ 提供索引的:
NIBL(动漫)
- https://nibl.co.uk/
- irc地址:
irc.rizon.net
- 加入nibl频道:
/join #nibl
xdcc.eu(综合)
sun dcxx(综合)
asthenia(综合)
- irc地址:
irc.rizon.net
- 加入nibl频道:
/join #asthenia
动漫的还有个animk.info,但是我这边看着站点有些损坏;其他还有些不是专门做xdcc的,比如动漫的subsplease、AniDex;之前有个索引+下载客户端littleweeb,但现无人维护,不知道原因是否为索引目标的失效。
Warez论坛
※ 基本上都是注册可见资源区;OSINT分发包“待验证内容”中还有一些邀请制的站点;。
- mobilism | 电子书/有声书/软件 | https://forum.mobilism.me/
- dpgroup.org | 电子书/有声书 | https://www.dpgroup.org/forum/ | 我这里gmail无法注册,protonmail正常接收验证码;论坛规定需家庭ip注册和访问,不能使用代理,以及一人一生一号政策,具体实施力度未知(毕竟开放注册,而且我用的代理,还是垃圾节点访问的)
- mvgroup | 纪录片 | https://forums.mvgroup.org/
- Novanon | 综合 | https://novanon.net/ | 文件托管方式取决于上传者,有一个文件托管平台白名单,内为非限速网盘或主流的网赚网盘,整体质量很好
- Компьютерный форум Ru.Board | 综合 | http://forum.ru-board.com/
- Nsane | 软件 | https://nsaneforums.com/
Open Directory
资讯可以参阅:
一些FTP索引项目:
- ODCrawler | | https://odcrawler.xyz/
- FilePursuit | | https://filepursuit.com/
- eyedx | | https://www.eyedex.org/groups/
- NAPALM FTP Indexer | | https://www.searchftps.net/
- Mamont | | https://www.mmnt.ru/int/
一些工具:
利用谷歌搜索引擎的替代前端:
- Google 上手动搜索 OpenDirectories
- LENDX | | http://lendx.org/
- lumpysoft.com | 视频/音乐/电子书等 | https://lumpysoft.com/
- OD Finder | | https://odfinder.github.io/#
- OD Search Tool | | https://open-directories.reecemercer.dev/
- Open Directory Search Portal | | https://www.eyeofjustice.com/od/
- Open Directory Search | | http://www.palined.com/search/
- Musgle | 音乐 | http://musgle.com/
可编程搜索引擎:
- 书籍
- 游戏:https://cse.google.com/cse?cx=20c2a3e5f702049aa
- 动漫:https://cse.google.com/cse?cx=006516753008110874046:osnah6w0yw8
- telegram频道:https://cse.google.com/cse?cx=957ae734f66a7a3e0
- rentry.co内容(Paste Skimmer):https://cse.google.com/cse?cx=000977868543400066238:8pmcka2t6qy
- SearchFiles | 影视综合,类可编程搜索引擎 | https://searchfiles.de/
开放站点(请勿滥用):
- xxx.bitdl.ir
- xxx.joshw.info
DDL
- Textfiles | 包含BBS和各种亚文化的文本文件 | http://textfiles.com/directory.html
- X-Files - lagout.org | 英/法语的计算机/电子/等参考资料 | https://doc.lagout.org/
- InfoCon.org | 黑客和安全相关 | https://infocon.org/ | 黑客和安全会议视频、纪录片、彩虹表、词汇表和播客的档案库
云服务
阿里云盘
谷歌云盘
Mega云盘
- megadb | 2018年4月11日被关停的r/megalinks 存档,时间有些远,很多都失效了 | https://megadb.tweakly.net/search
- 有个邀请制的intotheinter.net
Telegram
- https://tgarchive.eu.org/
- 需登陆tg账户使用。
Open Amazon s3 Buckets
- https://buckets.grayhatwarfare.com/
- 可能是我姿势不够,没搜到什么有用的,相关文章。
藏宝洞
标注了体积但无声明的为bt资源,非bt资源在标注体积时会说明类型;url有明显标识(如谷歌/mega等的服务)的不额外声明;无体积标识又无声明的请自行到站内查看。
无标识的为暂无存档计划,【⚪】为计划或正在存档,【⚫】为已存档,【☯】为非项目类型(通常是信息索引)的存档或不完全存档(有说明),【⚈】为有瑕疵的存档(如部分数据损坏)。
书籍
Bibliotheca 镜像
- https://old.reddit.com/r/DataHoarder/comments/zuniqw/bibliotheca_alexandrina_a_600_gb_hoard_of_history/
- 截止于2022年12月的备份,600GB
- 另一个旧的:https://old.reddit.com/r/DataHoarder/comments/kid7he/bibliotheca_alexandrina_a_300_gb_hoard_of_history/
Gutenberg 镜像
- https://old.reddit.com/r/DataHoarder/comments/c965la/1194_tib_full_project_gutenberg_archive_torrent/
- 古藤堡项目备份,1.19T
中文古籍 书格【⚪】
- https://s.shuge.org/all
- 谷歌、微软、阿里云盘,Rslisio Sync
音乐
J-CORE 无损【⚫】
- https://audioforyou.top/
- 体积:
267.01 GiB
the /kpg/ torrent (kpop)
- https://kpg.neocities.org/
- 922.76 GB
TLMC v5(东方无损音乐合集)
东方无损音乐合集(V.19)【⚫】【过时】
- http://www.tlmc.eu/
- 体积:
1.547 TiB
- 东方有损音乐合集 v.19 (Ogg Vorbis q6) 【⚫】 :
- https://nyaa.si/view/1003067
- 体积:
336.2 GiB
古典音乐【⚫】
- Musica classica:
43b0846fdff9ceee76bac8879ff636fac91318f1
(992.57 GiB
) - Decca Ultimate:
086d35085c015a0bd115d7b4417df8ed4839f565
(48.13 GiB
) - 来源:4chan /t/
Redtopia
- https://git.fuwafuwa.moe/cairn/Redtopia
- 已关闭的pt站的内容存档,总计约5.7TiB
Myspace
- https://archive.org/details/myspace_dragon_hoard_2010
- 在线:https://mydora.restorativland.org/
- MySpace在服务器迁徙时丢失了2003-2015间的数据,这是2008-2010间的音乐存档(mp3)。
/X/
pg【⚫】
The Temple of Solomon the King【⚫】
※ 以上两个mega链接疑似失效,不跳文件被删提醒,直接返回登陆页。
Library v1.5【⚫】
- https://1337x.to/torrent/3800017/The-Occult-Library-v1-5-480GB/
- 忘记在哪里下的了,这是反查找到的可用下载方案。
Fringe Library【☯】
https://8kun.top/fringe/library.html(IA镜像)- 除了常规论坛外,神秘/超自然主题的应该也就 4chan的/x/和8chan的/fringe/了吧,虽然都有些那啥。
Gal
GalGame
galgame | | http://source1.galgamewiki.cn/ | 第二部分:http://source2.galgamewiki.cn/- 2023年底原主因一些顾虑关闭了,此前资源是托管于微软企业云盘中,qq群:279113015(进群有gal相关提问,会清理不活跃用户)。
Galgame 汉化补档计划
动漫
AnimeThemes.moe - OP/ED合集视频备份【☯】
- https://nyaa.si/?f=0&c=0_0&q=AnimeThemes
- 体积:
572.4 GiB
(2023.04.01)【⚫】
HDKirin的op/ed WebM 存档
动漫音乐/OST【⚫】
- https://nyaa.si/view/1404832
animeaudioarchive.github.io
整理,但站点已关闭,此前在筹备V6.0版本,discord群内管理员也没有任何后续消息。- 体积:
474.5 GiB
Flash
Flashpoint (网页游戏)
- https://flashpointarchive.org/downloads
- 体积:
1.9 - 3.5 GB
(部分)、1.68 TB
(完整)
教育
IB课程
- 文件下载地址:http://ibstrnghz37rkjis2tzzdqyxbytoxz4saqziswhe4dq5cjwb3666ceid.onion/files/ (
ibdocs_may23.torrent
是所有文件) - 官网:https://ibdocs.org/;社区:https://old.reddit.com/r/pirateIB/
- 体积:
168.46 GiB
novelaileak
- 磁力:
5bde442da86265b670a3e5ea3163afad2c6f8ecc
- 来源4chan,具体线程不定
- 体积:
52.06 GiB
Theoccult.click Content Leaked
- https://concen.org/torrents?title_op=contains&title=Theoccult.click+Content+Leaked&title_1_op=not&title_1=&seeds=All
- Theoccult.click是一个神秘学主题的PT站
粉丝向
呆伯特漫画档案【⚫】
海绵宝宝
战锤宇宙
- https://old.reddit.com/r/DataHoarder/comments/zuo1gz/warhammer_universe_collection_updated_december/
宝可梦
/sug/(Steven Universe)
coomer 迷因
- http://coomer.org/
- mega云盘
其他
信息图表集合
osu!谱面包【⚫】
Thingiverse 镜像【⚪】
opensubtitles.org 字幕转储【⚫】
- https://old.reddit.com/r/DataHoarder/comments/12yxcoy/opensubtitlesorg_dump_1_million_subtitles_23_gb/
- 体积:
6.65 GiB
What.CD 镜像【⚫】
- https://old.reddit.com/r/trackers/comments/11b7s2a/is_whatcd_archival_material_out_there/
- 非用户数据(种子、标签、简介、合辑集等)的数据、
PlayStation 1 手册扫描
旧时代电台
近 200 万张公共领域图像的集中化
Common Crawl
- https://commoncrawl.org/
- 网络爬虫数据开放存储库,做的就是搜索引擎的活,扫描并存档页面的源代码等信息,作为数据集被训练模型或研究分析上有大用,但对于数据收藏癖而言没太大用途,因为对爬取的站点没有审查,而互联网上的随机页面大都是垃圾信息。
GeoCities 镜像/存档
- Archive Team:https://wiki.archiveteam.org/index.php/GeoCities
- restorativland:https://restorativland.org/
- OoCities.org:https://www.oocities.org/
- GeoCities是提供免费博客服务的站点,类似于neocities.org。
博客/文章
- 数据囤积的基础知识、一些资源的推荐(mega为主,部分死链):Data Hoarding in the Modern Age: A Guide
秘境
猫汤
※ 猫汤算是大冷门作品中的热门作品,但也没有到资源繁多的地步,来来回回就那么些资源和汇编资源的人,dailynekojiru的about页面列举了一些资源、信息站点,除了一些特殊的(例如nyansitory提供了高质量扫图)不再重复收录。
资讯站点:
- Nekojiru英译作品及相关信息汇总:https://dailynekojiru.com/(Discord群)
- 英文 Nekojiru 资源和翻译集:https://read-nekojiru.neocities.org/
资源:
- OVA:
- 【DVD】.iso:待上传
- 【DVDRip】
cat_soup[h264.ac3][niizk].mkv (508.3 MiB)
:archive.org、nyaa - 【WEB-DL】
[Amicus] Cat Soup [U-NEXT WEB-DL 1080p AVC].mkv (2.1 GiB)
:nyaa
- 漫画:
- 【在线】Nekojiru的漫画(翻译):https://mangadex.org/author/32780b0a-45a5-490b-9cfd-c84e67012a0f/nekojiru
- 【档案】Nekojiru的漫画作品扫描(原始):https://nyansitory.neocities.org/nekojirucollection (Discord群)
出版作品:
- 所有出版作品列表:http://www.din.or.jp/~kaji/
- 仅Nekojiru(桥口千代美参与了的)作品列表:http://nekojiru.space/info.html
- 《ねこぢる大全》分为上下两篇,是ねこぢる(桥口千代美)去世10周年发行的所有作品集(按发行时间排序),包含了:ねこぢる大全
参考信息:
- https://ja.wikipedia.org/wiki/ねこぢる
- https://translatingnekojiru.tumblr.com/ (翻译使用的原始文件:mediafire;18年分享了个mega链接,说是其拥有的相关文件,链接有效但内容为空(推测是使用空间超限被mega删了))
- https://enjoynekojiru.tumblr.com/
- http://nekojiru.fc2web.com/
资源汇总:
- 待创建
后末日生存
旧OICSp项目备份
- 虽然废弃了,但主要内容都在这里:旧OICSp项目备份:OICSp-后末日生存
维基百科 可视化阅读版本
后记
Q:本项目与OSINT项目中的站点有什么区别?
A:OSINT项目正在提纯,目的是将所有项目类、文章类资源分离出去:如libgen、zlib侧重点始终是站点本身,则归属OSINT项目,而Anna's Blog的侧重点(至少在收录时如此)是通过bt分发的镜像的图书集,总而言之,可以一次性获得数据集,且此用途远胜于其他用途的,归属于本项目(信息汇编章除外,此是对应话题的数据集,不受此限制)。