什麼是數據收藏癖?
前言
作為數據收藏癖的晚期患者,數據不存儲在本地硬盤中,我又怎敢稱擁有?
數據收藏癖,或更「雅/泛」些的:數據囤積者(DataHoarder)、更親昵些的:(數字)倉鼠症患者、更傾向於管理的:數據管理員(DataCurator),無論您稱呼它為什麼,這便是本文章的主題。 不過我還是更適應數據收藏癖[1]。顧名思義,是收集/囤積(虛擬)數據的愛好者,
它本身只是個興趣,沒有人有權利解釋和規定它,但是為了便於理解,你需要知道在SCIO系列站點內的語境下「數據收藏癖」的含義:
一、重在於收集而非固定領域。
- 如有些人只是單純的影視等單一領域的愛好者,收集的都是影視資料,可以說是影視發燒友,但不可謂數據收藏癖。
- 如有些人是從影視之類的固定領域拓展而來,但只停留於周邊領域,如音樂、小說。可以說是某一類的愛好者,但亦不可謂數據收藏癖。
二、重在於價值而非跟風轉儲。
- 有些人是單純的轉存各種營銷推廣目的的資源,如阿里雲的各種合集資源;有些人則是從各種營銷號類的自媒體,如一些資源類公眾號、採集類的導航站/付費資源論壇;這兩種處於資源鏈的最底端,接觸的都是二次加工(轉儲方獲得資源後加上自己的水印,或密碼壓縮包)的資源,不可謂數據收藏癖。
- 有些人是通過一些具有實際價值論壇的相關板塊(如52破解的福利區)收集資源,區別是有些人是看到資源就轉儲,有些會進行分辨下。相對於上一類,獲取的資源整體質量具有優勢但不多。亦不可謂數據收藏癖。
- 有些人是通過各種散亂的渠道進行收集資源,但是資源的質量參差不齊,當事人也只是衝着標題和噱頭而去,對收集的資料沒有任何概念,更沒有分類整理意識。不可謂數據收藏癖。
- 有些人是跟風式存儲,如zlib項目,絕大多數人都是在zlib關停後才了解到相關項目(「安娜的博客」),而非事前就已經關注[2]。並且通常止步於這熱門項目,甚至如蝗蟲過境,硬盤內待不了幾天便做鳥獸散。不可謂數據收藏癖。
- 有些人收集各種教程,但並不去看,除了它過於經典或冷門,否則我不保存個人製作的教程。尤其是語言、it、繪畫、軟件操作等流行領域,它們隨時可以尋找更新的,沒有特意下載的意義。不可謂數據收藏癖。
三、重在於規範而非盲目增刪。
- 有些人只收藏,從不歸納,重災區是梗圖,我亦曾如此,這種盲目的大雜燴存儲方式,文件進入文件海中,便再難覓,不可謂數據收藏癖。
- 有些人只亂下,單純的下載,空間滿後便刪掉舊的,下新的,重災區是av類、各種教育類資源,資源只是從本地走個過場,不可謂數據收藏癖。
- 有些人只是玩玩具而已,折騰硬件,下載資源只不過是嘗試利用(或自我安慰式利用)空閒資源,不可謂數據收藏癖。
- 有些人只下載,但不區分質量和整理,比如一些特色類社區發展良好的資源,往往資源質量也不錯,但比較雜亂,不同的人可能會整理出不同的版本,或不同風格但相似的資源包,只是一味的下載不予區分和整理,會很亂以至於無法合理利用。
收集、價值、規範,三者兼得,可謂數據收藏癖。
兩個方向
在本文的語境下,我將其劃分為兩個主要的方向:
一、情報資源[3]。
- 側重於收集各種領域的價值網站、社區[4],輔以對互聯網世界的了解。
- 情報類資源入手相對簡單,主要是靠慢慢累積,沒有其他壓力。如遇到OSINT項目並有閱讀權限則省去累積的步驟,但這不能算數據收藏癖。數據收藏癖不會只是指資源存量,收集力[5]、價值、規範化,三者缺一不可。
二、實體資源[6]。
- 在本地或雲盤[7]中收集來自各種領域的規範化文件。
- 實體資源類門檻稍高,但找對方向資源源不算問題,只是資源量問題,需要有實體硬盤,起碼4-16TB起步,上不封頂。根據你想走遠,經濟投入也從0到無限。但是精力投入一直都是非常大的。
我應該做數據收藏癖嗎?
如果你問,那麼答案便是「不應該」。參見「PT」的入門章節,看似半篇文章都在說「PT的坑」但實際上都是說的「NAS的坑」——基礎環境及前置條件,數據收藏癖亦是如此。
經濟上:實際上硬件成本不算那麼高,現充把高價的鞋、衣服和無底線充值的遊戲上的消費摘出來一部分就足夠了,我反正沒買過新衣服,鞋都是三十多的,全身一套不超過100,也沒覺得什麼不妥——話雖如此,如果對此類消費本身就也很少的人呢?從哪剩下來額外預算?
精力上:不是真的愛好,或者我這種特例,基本上都堅持不下去,不只是主觀上堅持不下去,客觀上也會有因素(比如硬件的折騰、生活)干擾無法堅持下去。比如OSINT項目動輒長達一個月周期的維護,和來回整理分類及結構等等。在這些過程中我享受的一直是將其規範化的過程,而不是內容本身,這真的是你所願嗎?
我能成為數據收藏癖嗎?
技術力:
我同時是一個低技術力玩家,是,我折騰了nas、unraid,在計算機某些方面也都有一定的理解和運用能力,這與我的「低技術力」並不衝突。經驗和專業是兩個部分。
但如果你真的完全零經驗,或許不適合做一名數據收藏癖,因為這條路比「苦行賽道[8]」還「酷刑」,從零折騰硬件的路是極其折磨的,有時候我在某些unraid群組看到那些對電腦完全不熟悉的人折騰群暉這種「傻白甜」NAS的提問我都覺得累。
包括「紐約時報」有次提及了r/datahoarder,可以看reddit用戶的評論,當然我沒有任何立場,不做技術和人格上的評價,只是這才是對於普通的主流用戶眼中的數據囤積者。很多視為基礎的,對於他們來說確是專業術語,難以理解。因為它們「在其外」,要面對「在其中」的問題,那隔得是無數的基礎前要知識,這些知識點不見得多麼難和晦澀,只是完全不熟悉的話,就會像無頭蒼蠅一樣,找不到方向,從精神上被擊敗,失去動力[9][10]。
沒有強大的興趣或定力和一定的學習力,是堅持不下去的。永遠不要跟風玩,或者被某些商戶/軟廣的話術蠱惑。需求至上。
堅持力:
osint項目是我互聯網生涯的歸納,都是我多年累積的東西,我只是在2022年進行了兩次規範化。原本的也不算亂,只是調整分類起來非常麻煩(顯然瀏覽收藏夾並不適合複雜結構),所以累積了一個小「屎山」而已。所以相當於重新調整下分組結構與再審查一遍內容,就如此,第一次也花了1個月,得到一個「垃圾」,第二次又花了1個多月,算是初步成型。
家裏蹲的時間可不是上班族的時間,上班族的「肝」是下班之後拿出三五個小時去做,我是除了吃喝睡只有三五個小時不在做。可見需要付出多少精力成本。數據收藏癖可不是嘴上說的噱頭,每一個項目背後都是無數日夜的折騰。假若你有正常的工作和生活,你能否靜下心來沉浸在數據世界宣泄瘋狂?
規範化沒有系統的說,也不知道怎麼說,如果要我給建議,應該會說:「嘗試給自己製作『項目』,並設定章程與規範。從實踐中不斷加強「下意識」的能力。」我強調「規範化」的重要是對於數據收藏癖來說的,如果要我對你個人進行建議,我估計會建議你:「先累計接觸到的情報/實體資源的質量及體量,規範化先擱一擱,但是注意,『擱一擱』是指沒必要事無巨細,而不是不規範化。」
比如,不要在你尚且不全面[11]了解的情況下要貿然規範化,不然會容易堆積起一個非常混亂的結構(可以先做筆記)。最好的就是根據自己的實際掌握的程度以及對未掌握事物的理解程度和需求、未來維護的難易度進行調整分類的精細度——所以「全靠經驗」。可以參考「理解和共鳴的差異就是後者親身體驗過,前者只是被一種『常識』所束縛着而已,後者要更加深刻,更容易增強『下意識』的能力。」,所以多走點「彎路」並不是壞事。
只是對這個「度」的把控不太好說,因為一旦意識到這點,並且目的從事物本身轉移到「故意矯枉過正,藉此來加強認知」時,可能會有反作用。最好的是隨性,全局都隨性下來,靠經驗和不脫離事物本身的思考進行完善。
但無論如何,可以確定的是,當體量到一定程度,接觸的事物範圍、對事物的了解到一定程度、階段,現有的結構肯定要頻頻改動。比如OSINT項目在進化到本地時代之前,書籤欄的結構就經過大量改動,本地化也是考慮到本地修改結構起來十分方便,所以書籤欄才被打入了冷宮。
我尚且如此,完全無經驗的更是會如此,只要認知的範圍在拓展,規範化就永遠不會停止[12]。——這句話的背後是耗費很多時間精力的「重複勞動」,這是不可避免的,除非你根本不在乎項目本身。
經濟力:
如果側重於情報資源,則更多的付出時間與精力。如果側重於實體資源,較少的內容時可以(但不推薦)利用主流的雲盤服務,但是內容較多時,則需要本地置辦設備(此處只是簡單介紹)。
第一階段:PC[13] + 硬盤
- 一般都是4TB硬盤起步,京東官店西數垂直紫盤約500元;二手二百多元。如果不收集較大體積的文件或項目,精打細算些,還是可以玩的。
第二階段:NAS + 硬盤
- 本質上是硬盤數量多了起來,為了便捷性和盤位採用NAS的方案,便宜的NAS(純用來存儲)500多可以拿下,貴的兩三千體驗比較好。NAS本身就是普通的硬件堆疊的設備(NAS陣營圖.jpg)。
- 硬盤一般也需要4盤位及以上,當本地有兩塊狀態良好4T硬盤時(可作備份用途),第三塊建議上16TB/18TB硬盤,後續也都是如此,以免遇到閒置嫌浪費、用嫌小、賣嫌麻煩的窘境。
第三階段:磁帶機 + 磁帶
- 起碼lto5起步,適合需要備份的非重要[14]文件超過100TB,二手磁帶機市場價約1k左右(2023年數據),磁帶1.5TB(1.3TiB)二手約25-28一盤,但就論性價比來說,百T級別的存儲量,算上冗餘/耗損,單盤1.2TiB也着實寒酸了點,會增加很多操作量。lto5單盤空間顯得很小,可lto6+磁帶機價格指數上漲。
- 且對濕度等環境要求較高,若無大型冷倍項目,其性價比並不見得高。
特殊階段:雲盤
- 雲盤算是一個特殊項,如主流的百度雲,開了會員體驗是非常不錯的,國內雲盤要體驗好就需要開會員。國外雲盤要空間大,就要買空間,且非常貴。
- 雲盤實際花費並不算低,而且雲盤操作起來不如本地(
上限也高,如谷歌的無限盤,但各服務商都在自我閹割、打擊違規創建的無限盤)。
後記
我只是用我的文字去描述我視角下一個純粹(即非固定領域的愛好者)的數據收藏癖的樣貌(表現特徵、三要素)與前置需要(設備、經濟和精力與時間投入)而已。是系列文章及OICSp需要所以如此書寫,實際上您不需要成為我一樣的「偏執狂」,您符合「我定義的」數據收藏癖,沒有任何的益處;也不應該靠這種文章選擇是否「入坑」數據收藏癖;這不是需要做決定的工作,這就是日常中慢慢累積起的興趣與愛好。包括我自己也並非日日沉浸於此,都是什麼時候心血來潮什麼時候去做,這是興趣,目的是取悅自己。
試想一下,你存檔着自己的生活經歷,存檔着歷史的細節,看到一張圖片你能回憶起當時所發生的事;很多好站點已經關閉,可你鏡像了它們可以隨時查閱;你轉儲了大量項目,什麼3d打印素材、字幕文件、遊戲、影音,各種資料,你可以隨時閱覽……
數據收藏癖,是發自內心的,享受獲得數據的快感,享受接觸各領域帶來的收穫,以及享受保存歷史的意義帶來的滿足感,和觸摸過去引發的感悟。
註釋欄
- ↑ 除了習慣了之外,感覺它更傾向於「偏執狂」,而其他更傾向於描述「囤積數據」的行為。
- ↑ 只是提前了解他們的存在沒有任何門檻,不需要有什麼內部消息渠道,只要經常看 r/DataHoarder ,在zlib事發前幾個月我就已經關注他們了,原因只是當事人在sub內開貼了,在板內本身就挺有名氣。而reddit是最簡單且信息豐富新老皆宜的平台了。
- ↑ 泛指優秀站點、價值資訊等情報信息資源。OSINT項目便是此類。
- ↑ 必須經過審查,而非從他人導航站和索引中盲目摘錄。未經審查的內容和採集類導航站無異,純粹的無用之物。且上面排除過的低質量/轉載變付費資源站亦為無用之物。
- ↑ 可持續化發展、主動挖掘價值站點、發現優質站點的意識和能力。這個也只能靠天賦/悟性/經驗或慢慢累積。
- ↑ 泛指需要較多硬盤空間來存儲的,如『什麼地方有什麼資源』屬於情報資源,『這個資源』屬於實體資源。資源重整理便是此類。
- ↑ 我傾向於本地,雲盤只是備份資源的一種選擇。 或存儲非重要資料的備用選項。
- ↑ 極限競速地平線中一場時間長的拉力賽,是謂萌新殺手。
- ↑ 就比如說nas的成本時,都是不包括硬盤的。這也算「常識」。但是很多對硬盤沒有絲毫概念的人,便認為這是「坑」。
- ↑ 當然,在並不真正了解某個事情及行事邏輯的基礎上輕易下定論與打標籤的行為一定程度上也說明了某人了解這些信息完全不是因為感興趣。
- ↑ 相對於深入了解過的領域下,已掌握的內容遠大於已知的未掌握的內容。
- ↑ 比如隨着各種交叉領域的事物而陷入各種分類困擾中
- ↑ 是的,自己的電腦這種是常識中的常識級別,原本不算入成本里的,但是很多人,尤其是有熱枕心態的年輕人,往往是經常玩手機,而對電腦完全不熟悉的。以及精力多折騰起來輕鬆的學生群體大多是沒有電腦的。但是這是數據收藏癖的基礎條件。如果你真的什麼都沒有,那麼你需要折騰的就不只是額外的硬件設備,還有最基礎的個人電腦,或許文中還有很多亦如此類只是也被我忽略的,我認為的「常識」。總而言之,強調一句話,要麼你有極大的興趣,要麼你有極大的精神定力。否則會半途而廢,沒有任何成果或成就感。
- ↑ 「常識」的語境下,很多文件都可謂「重要」,但這裏的指那些絕無僅有的文件,比如絕版的、絕跡的、獨一份的文件。 對於此類文件,磁帶只是做一個備份作用。你應該採取傳統的容災備份方式將重要文件多重備份,如果都是這類文件,那麼磁帶里也至少需要雙重備份。