數據囤積:領域資源參考

出自Wired
跳至導覽跳至搜尋
2023-12:由于wiki:记一次联通宽带限速事件影响,所有bt(包括pt)保种已停止。
2024-03:近期有大量未知底细(疑似中和pcdn产生的大量上传)的吸血peer,您可以参考此文档,屏蔽此类客户端、ip段,以免浪费带宽资源。
2024-04:我有建立一个发资源的傀儡站的想法,负责一些非公共项目的资源托管并避免系列站点遭受DMCA或无关流量,计划文件托管于谷歌云盘/mega/大盘鸡VPS,但得等我有稳定工作后才能实施,若您有(免费且)稳定的团队盘等渠道欢迎同我联系提前布局。

前言

  想了想,還真不好下筆。。。

  一者,領域太多太雜太亂,我個人功底尚不足;二者,不管我怎麼理想化數據收藏癖,可實際上我自己就是各領域的過客,除了增加伺服器負擔外,很難留下痕跡,這可能對那些領域來說是不友好行為;三者,集中式的索引像是現成飯,吃多了可是會喪失成為數據收藏癖的三大要素之「收集力」的;四者,我之前也沒好習慣,很多本地的東西都沒留來源,或者來源非bt/存活網盤。故本頁只做兔子洞用途,會羅列一些數據供以參考,若感興趣請自行索引相關信息。

  BT資源說明體積的是我在做種的,停止做種=nas/硬盤壞掉,雖然有公網+端口轉發,但我上行帶寬很小,而且不止BT流量,還有PT流量,和自託管的一些流媒體伺服器(雖然就我自己在內網場景用),權做保底用途,以抵消潛在的吸血用戶隱患。請尊重BT環境,不要用吸血雷等工具,下載完成後盡力做種。

 

宗門

Internet Archive

  • https://archive.org/
  • 集大成的寶庫,或許很多人因網頁快照而得知,但它真正的寶藏是存檔的各式資料與數據集,比如:eBooks and TextsMoving Image ArchiveAudio ArchiveThe Internet Archive Software CollectionImage,以及眾多由無數用戶上傳的各式文件。
  • 但由於比較正規,所存檔內容多為版權公共領域,但又由於體量,那一小部分也是非常多;個人用戶自行上傳的內容雖不會進行嚴格審查,但被舉報(收dmca)還是有很大概率被刪除;都提供了bt渠道。

Archive Team

  • https://wiki.archiveteam.org/
  • 致力於存檔互聯網、保存數字遺產的眾包團隊,官網主要是記錄正在進行的任務與其相關的資訊,文件主要託管於IA
  • 他們(的成員)還創建了一系列用於歸檔網頁的工具同時將歸檔的資源上傳到了IA,如:WikiTeam

the-eye.eu

  • https://the-eye.eu/
  • 與Archive Team相比,它們側重點與體量不同,AT在於鏡像站點,目標是互聯網站點及其產生的數據;它(與傳統的)在於資源本身,或會觸及版權(雷就是#Open_Directory)。
  • 2021年10月因設備故障而關閉,由於經濟、工作人員的精力及時間問題,2022年開始重建,但始終未能恢復此前所擁有的資源,不過正逐步的推進更多的項目,如reddit/推特/tg的部分類型內容備份及其他站點、資源的鏡像,只能說未來可期。
  • 因為它的體量和我個人的偏見問題,將其放於此處,對於類似(介於它和一般OD站點間:體量、涉及、穩定性)的項目可以移步:#DDL

 

comfy box

Save The Web Project(中文)

 

the Great 78 Project

 

藏寶圖

BT

本篇文章的核心是資源項目,後續或許會拓展一些資源社區,但考慮到bt領域的體量、OSINT項目與本頁重複內容造成的冗餘,就不盡數移植過來了:

  • 影視方面BT:osint.md#二级目录-01Y-BT社区
    • 反正我只用:新rarbg(搜索欄輸入tt號/標題等其加載就行無需回車,1080p普遍1-2GB,碼率不高,但巧了,我要求也不高)、Rutracker(有些資源刪掉了原音軌,或直接將俄語譯文蓋到了原音軌上就很頭大)、1337x;再找不到的就去pt站(貓/饅頭/ipt)看看;還找不到但又想看看一下xerlpredb站看是否有scene資源,有的話可以在pt站求種;還找不到就不看也罷。但這一切的前提是有中文字幕,不然也懶得找。
  • ACG方面:osint.md#一级目录-12X子兴趣 -ACG专区
    • 反正我主要是線上看,dmhy/nyaa等bt站一些冷門作斷種情況比較嚴重,不行就是找vcb資源(硬通貨,做種情況良好,但一般不配字幕)+字幕或pt站(u2),缺點是體積有些大,我的眼配不上。
  • 一些大型bt站的另一些可取之處就是數據集、大包,如:
  • 對於PT,見:PT

Anna's Archive(電子書)

  • https://annas-blog.org/
  • https://annas-archive.org/torrents
  • 主要是zlib的鏡像,和最近一個漫畫的存檔。
  • 發展愈來愈壯大 ,目前正朝着鏡像電子書(書籍、論文、雜誌、漫畫)的方向不斷前進、拓展着數據集(libgen.rs/li、Sci-Hub、zlib、IA圖書館、讀秀(5.0+?));可在線搜索及緩慢下載(贊助可高速),數據集以bt方式分發。
  • 很怕走zlib的老路,希望在這之前諸般資源都能以bt方式分發,出了種,火種就能延續下去。

Academic Torrents(數據集)

  • https://academictorrents.com/
  • 學術種子,主要是各類(具有學習研究及教育用途的而不一定要學術性的)數據集、課程。
  • 由於部分(比如常用的amy/imm一流)機場屏蔽了域名中含「torrent」的網站,可用其他代理或tor訪問站點。

4chan /t/ (磁力分享)

 

P2P

DC++

Soulseek

  • https://www.slsknet.org/news/
  • 雖然不限制類型,但公認是分享音樂資源,但很多分享flac的人都上了鎖,一般要交換資源,公開資源多為320kbps。

其他的諸如日本的Perfect Dark(需要開放端口,即得有公網)類soulseek但熱度太低,資源量不夠看;IPFS(之前還有個ipfs-search.com但關了)、Resilio Sync只是作為工具依附於各種項目,就不列舉了。

 

XDCC

推薦客戶端:HexChat,由於眾所周知的原因,因為網絡波動,連接質量或許會很差;有了下載指令,在對應的irc伺服器的頻道內(bot所在)複製粘貼發送即可。

※ 提供服務的:

IRCHighWay(電子書)

  • https://irchighway.net/
  • irc地址:irc.irchighway.net/6697
  • 加入書籍頻道:/join #ebooks
  • 搜索書籍:@search 关键词
  • 下載書籍:如果收到壓縮包,解開后里面是txt文件,是索引出的結果,選一個(是弄好的下載命令)複製粘貼從該頻道發出去,再接收電子書即可。

※ 提供索引的:

NIBL(動漫)

xdcc.eu(綜合)

sun dcxx(綜合)

asthenia(綜合)

  • irc地址:irc.rizon.net
  • 加入nibl頻道:/join #asthenia

動漫的還有個animk.info,但是我這邊看着站點有些損壞;其他還有些不是專門做xdcc的,比如動漫的subspleaseAniDex;之前有個索引+下載客戶端littleweeb,但現無人維護,不知道原因是否為索引目標的失效。

 

Warez論壇

※ 基本上都是註冊可見資源區;OSINT分發包「待驗證內容」中還有一些邀請制的站點;。

  • mobilism | 電子書/有聲書/軟件 | https://forum.mobilism.me/
  • dpgroup.org | 電子書/有聲書 | https://www.dpgroup.org/forum/ | 我這裏gmail無法註冊,protonmail正常接收驗證碼;論壇規定需家庭ip註冊和訪問,不能使用代理,以及一人一生一號政策,具體實施力度未知(畢竟開放註冊,而且我用的代理,還是垃圾節點訪問的)
  • mvgroup | 紀錄片 | https://forums.mvgroup.org/
  • Novanon | 綜合 | https://novanon.net/ | 文件託管方式取決於上傳者,有一個文件託管平台白名單,內為非限速網盤或主流的網賺網盤,整體質量很好
  • Компьютерный форум Ru.Board | 綜合 | http://forum.ru-board.com/
  • Nsane | 軟件 | https://nsaneforums.com/

 

Open Directory

資訊可以參閱:

一些FTP索引項目:

一些工具:

利用谷歌搜尋引擎的替代前端:

可編程搜尋引擎:

開放站點(請勿濫用):

 

DDL

 

雲服務

阿里雲盤

谷歌雲盤

Mega雲盤

Telegram

Open Amazon s3 Buckets

 

藏寶洞

  標註了體積但無聲明的為bt資源,非bt資源在標註體積時會說明類型;url有明顯標識(如谷歌/mega等的服務)的不額外聲明;無體積標識又無聲明的請自行到站內查看。

  無標識的為暫無存檔計劃,【⚪】為計劃或正在存檔,【⚫】為已存檔,【☯】為非項目類型(通常是信息索引)的存檔或不完全存檔(有說明),【⚈】為有瑕疵的存檔(如部分數據損壞)。

書籍

Bibliotheca 鏡像

Gutenberg 鏡像

中文古籍 書格【⚪】

 

音樂

J-CORE 無損【⚫】

the /kpg/ torrent (kpop)

TLMC v5(東方無損音樂合集)

東方無損音樂合集(V.19)【⚫】【過時】

古典音樂【⚫】

  • Musica classica:43b0846fdff9ceee76bac8879ff636fac91318f1992.57 GiB
  • Decca Ultimate:086d35085c015a0bd115d7b4417df8ed4839f56548.13 GiB
  • 來源:4chan /t/

Redtopia

Myspace

 

/X/

pg【⚫】

The Temple of Solomon the King【⚫】

※ 以上兩個mega連結疑似失效,不跳文件被刪提醒,直接返回登陸頁。

Library v1.5【⚫】

Fringe Library【☯】

 

Gal

GalGame

Galgame 漢化補檔計劃

 

動漫

AnimeThemes.moe - OP/ED合集視頻備份【☯】

HDKirin的op/ed WebM 存檔

動漫音樂/OST【⚫】

 

Flash

Flashpoint (網頁遊戲)

 

教育

IB課程

novelaileak

  • 磁力:5bde442da86265b670a3e5ea3163afad2c6f8ecc
  • 來源4chan,具體線程不定
  • 體積:52.06 GiB

Theoccult.click Content Leaked

 

粉絲向

呆伯特漫畫檔案【⚫】

海綿寶寶

戰錘宇宙

寶可夢

/sug/(Steven Universe)

coomer 迷因

 

其他

信息圖表集合

osu!譜麵包【⚫】

Thingiverse 鏡像【⚪】

opensubtitles.org 字幕轉儲【⚫】

What.CD 鏡像【⚫】

PlayStation 1 手冊掃描

舊時代電台

近 200 萬張公共領域圖像的集中化

Common Crawl

  • https://commoncrawl.org/
  • 網絡爬蟲數據開放存儲庫,做的就是搜尋引擎的活,掃描並存檔頁面的原始碼等信息,作為數據集被訓練模型或研究分析上有大用,但對於數據收藏癖而言沒太大用途,因為對爬取的站點沒有審查,而互聯網上的隨機頁面大都是垃圾信息。

GeoCities 鏡像/存檔

博客/文章

 

秘境

貓湯

※ 貓湯算是大冷門作品中的熱門作品,但也沒有到資源繁多的地步,來來回回就那麼些資源和匯編資源的人,dailynekojiru的about頁面列舉了一些資源、信息站點,除了一些特殊的(例如nyansitory提供了高質量掃圖)不再重複收錄。

資訊站點:

資源:

出版作品:

參考信息:

資源匯總:

  • 待創建

 

後末日生存

舊OICSp項目備份

維基百科 可視化閱讀版本

 

後記

Q:本項目與OSINT項目中的站點有什麼區別?

A:OSINT項目正在提純,目的是將所有項目類、文章類資源分離出去:如libgen、zlib側重點始終是站點本身,則歸屬OSINT項目,而Anna's Blog的側重點(至少在收錄時如此)是通過bt分發的鏡像的圖書集,總而言之,可以一次性獲得數據集,且此用途遠勝於其他用途的,歸屬於本項目(信息匯編章除外,此是對應話題的數據集,不受此限制)。