什么是数据收藏癖?

来自Wired
跳转到导航 跳转到搜索

前言

  作为数据收藏癖的晚期患者,数据不存储在本地硬盘中,我又怎敢称拥有?

  数据收藏癖,或更“雅/泛”些的:数据囤积者(DataHoarder)、更亲昵些的:(数字)仓鼠症患者、更倾向于管理的:数据管理员(DataCurator),无论您称呼它为什么,这便是本文章的主题。 不过我还是更适应数据收藏癖[1]。顾名思义,是收集/囤积(虚拟)数据的爱好者

  它本身只是个兴趣,没有人有权利解释和规定它,但是为了便于理解,你需要知道在SCIO系列站点内的语境下“数据收藏癖”的含义:

一、重在于收集而非固定领域。

  • 如有些人只是单纯的影视等单一领域的爱好者,收集的都是影视资料,可以说是影视发烧友,但不可谓数据收藏癖。
  • 如有些人是从影视之类的固定领域拓展而来,但只停留于周边领域,如音乐、小说。可以说是某一类的爱好者,但亦不可谓数据收藏癖。

二、重在于价值而非跟风转储。

  • 有些人是单纯的转存各种营销推广目的的资源,如阿里云的各种合集资源;有些人则是从各种营销号类的自媒体,如一些资源类公众号、采集类的导航站/付费资源论坛;这两种处于资源链的最底端,接触的都是二次加工(转储方获得资源后加上自己的水印,或密码压缩包)的资源,不可谓数据收藏癖。
  • 有些人是通过一些具有实际价值论坛的相关板块(如52破解的福利区)收集资源,区别是有些人是看到资源就转储,有些会进行分辨下。相对于上一类,获取的资源整体质量具有优势但不多。亦不可谓数据收藏癖。
  • 有些人是通过各种散乱的渠道进行收集资源,但是资源的质量参差不齐,当事人也只是冲着标题和噱头而去,对收集的资料没有任何概念,更没有分类整理意识。不可谓数据收藏癖。
  • 有些人是跟风式存储,如zlib项目,绝大多数人都是在zlib关停后才了解到相关项目(“安娜的博客”),而非事前就已经关注[2]。并且通常止步于这热门项目,甚至如蝗虫过境,硬盘内待不了几天便做鸟兽散。不可谓数据收藏癖。
  • 有些人收集各种教程,但并不去看,除了它过于经典或冷门,否则我不保存个人制作的教程。尤其是语言、it、绘画、软件操作等流行领域,它们随时可以寻找更新的,没有特意下载的意义。不可谓数据收藏癖。

三、重在于规范而非盲目增删。

  • 有些人只收藏,从不归纳,重灾区是梗图,我亦曾如此,这种盲目的大杂烩存储方式,文件进入文件海中,便再难觅,不可谓数据收藏癖。
  • 有些人只乱下,单纯的下载,空间满后便删掉旧的,下新的,重灾区是av类、各种教育类资源,资源只是从本地走个过场,不可谓数据收藏癖。
  • 有些人只是玩玩具而已,折腾硬件,下载资源只不过是尝试利用(或自我安慰式利用)空闲资源,不可谓数据收藏癖。
  • 有些人只下载,但不区分质量和整理,比如一些特色类社区发展良好的资源,往往资源质量也不错,但比较杂乱,不同的人可能会整理出不同的版本,或不同风格但相似的资源包,只是一味的下载不予区分和整理,会很乱以至于无法合理利用。

 

  收集、价值、规范,三者兼得,可谓数据收藏癖

 

两个方向

在本文的语境下,我将其划分为两个主要的方向:

一、情报资源[3]

  • 侧重于收集各种领域的价值网站、社区[4],辅以对互联网世界的了解。
  • 情报类资源入手相对简单,主要是靠慢慢累积,没有其他压力。如遇到OSINT项目并有阅读权限则省去累积的步骤,但这不能算数据收藏癖。数据收藏癖不会只是指资源存量,收集力[5]、价值、规范化,三者缺一不可。

二、实体资源[6]

  • 在本地或云盘[7]中收集来自各种领域的规范化文件。
  • 实体资源类门槛稍高,但找对方向资源源不算问题,只是资源量问题,需要有实体硬盘,起码4-16TB起步,上不封顶。根据你想走远,经济投入也从0到无限。但是精力投入一直都是非常大的。

 

我应该做数据收藏癖吗?

  如果你问,那么答案便是“不应该”。参见“PT”的入门章节,看似半篇文章都在说“PT的坑”但实际上都是说的“NAS的坑”——基础环境及前置条件,数据收藏癖亦是如此。

  经济上:实际上硬件成本不算那么高,现充把高价的鞋、衣服和无底线充值的游戏上的消费摘出来一部分就足够了,我反正没买过新衣服,鞋都是三十多的,全身一套不超过100,也没觉得什么不妥——话虽如此,如果对此类消费本身就也很少的人呢?从哪剩下来额外预算?

  精力上:不是真的爱好,或者我这种特例,基本上都坚持不下去,不只是主观上坚持不下去,客观上也会有因素(比如硬件的折腾、生活)干扰无法坚持下去。比如OSINT项目动辄长达一个月周期的维护,和来回整理分类及结构等等。在这些过程中我享受的一直是将其规范化的过程,而不是内容本身,这真的是你所愿吗?

 

我能成为数据收藏癖吗?

技术力:

  我同时是一个低技术力玩家,是,我折腾了nas、unraid,在计算机某些方面也都有一定的理解和运用能力,这与我的“低技术力”并不冲突。经验和专业是两个部分。

  但如果你真的完全零经验,或许不适合做一名数据收藏癖,因为这条路比“苦行赛道[8]”还“酷刑”,从零折腾硬件的路是极其折磨的,有时候我在某些unraid群组看到那些对电脑完全不熟悉的人折腾群晖这种“傻白甜”NAS的提问我都觉得累。

  包括“纽约时报”有次提及了r/datahoarder,可以看reddit用户的评论,当然我没有任何立场,不做技术和人格上的评价,只是这才是对于普通的主流用户眼中的数据囤积者。很多视为基础的,对于他们来说确是专业术语,难以理解。因为它们“在其外”,要面对“在其中”的问题,那隔得是无数的基础前要知识,这些知识点不见得多么难和晦涩,只是完全不熟悉的话,就会像无头苍蝇一样,找不到方向,从精神上被击败,失去动力[9][10]

  没有强大的兴趣或定力和一定的学习力,是坚持不下去的。永远不要跟风玩,或者被某些商户/软广的话术蛊惑。需求至上。

 

坚持力:

  osint项目是我互联网生涯的归纳,都是我多年累积的东西,我只是在2022年进行了两次规范化。原本的也不算乱,只是调整分类起来非常麻烦(显然浏览收藏夹并不适合复杂结构),所以累积了一个小“屎山”而已。所以相当于重新调整下分组结构与再审查一遍内容,就如此,第一次也花了1个月,得到一个“垃圾”,第二次又花了1个多月,算是初步成型。

  家里蹲的时间可不是上班族的时间,上班族的“肝”是下班之后拿出三五个小时去做,我是除了吃喝睡只有三五个小时不在做。可见需要付出多少精力成本。数据收藏癖可不是嘴上说的噱头,每一个项目背后都是无数日夜的折腾。假若你有正常的工作和生活,你能否静下心来沉浸在数据世界宣泄疯狂?


  规范化没有系统的说,也不知道怎么说,如果要我给建议,应该会说:“尝试给自己制作‘项目’,并设定章程与规范。从实践中不断加强“下意识”的能力。”我强调“规范化”的重要是对于数据收藏癖来说的,如果要我对你个人进行建议,我估计会建议你:“先累计接触到的情报/实体资源的质量及体量,规范化先搁一搁,但是注意,‘搁一搁’是指没必要事无巨细,而不是不规范化。

  比如,不要在你尚且不全面[11]了解的情况下要贸然规范化,不然会容易堆积起一个非常混乱的结构(可以先做笔记)。最好的就是根据自己的实际掌握的程度以及对未掌握事物的理解程度和需求、未来维护的难易度进行调整分类的精细度——所以“全靠经验”。可以参考“理解和共鸣的差异就是后者亲身体验过,前者只是被一种‘常识’所束缚着而已,后者要更加深刻,更容易增强‘下意识’的能力。”,所以多走点“弯路”并不是坏事。

  只是对这个“度”的把控不太好说,因为一旦意识到这点,并且目的从事物本身转移到“故意矫枉过正,借此来加强认知”时,可能会有反作用。最好的是随性,全局都随性下来,靠经验和不脱离事物本身的思考进行完善。


  但无论如何,可以确定的是,当体量到一定程度,接触的事物范围、对事物的了解到一定程度、阶段,现有的结构肯定要频频改动。比如OSINT项目在进化到本地时代之前,书签栏的结构就经过大量改动,本地化也是考虑到本地修改结构起来十分方便,所以书签栏才被打入了冷宫。

  我尚且如此,完全无经验的更是会如此,只要认知的范围在拓展,规范化就永远不会停止[12]。——这句话的背后是耗费很多时间精力的“重复劳动”,这是不可避免的,除非你根本不在乎项目本身。

 

经济力:

  如果侧重于情报资源,则更多的付出时间与精力。如果侧重于实体资源,较少的内容时可以(但不推荐)利用主流的云盘服务,但是内容较多时,则需要本地置办设备(此处只是简单介绍)。

第一阶段:PC[13] + 硬盘

  • 一般都是4TB硬盘起步,京东官店西数垂直紫盘约500元;二手二百多元。如果不收集较大体积的文件或项目,精打细算些,还是可以玩的。

第二阶段:NAS + 硬盘

  • 本质上是硬盘数量多了起来,为了便捷性和盘位采用NAS的方案,便宜的NAS(纯用来存储)500多可以拿下,贵的两三千体验比较好。NAS本身就是普通的硬件堆叠的设备(NAS阵营图.jpg)。
  • 硬盘一般也需要4盘位及以上,当本地有两块状态良好4T硬盘时(可作备份用途),第三块建议上16TB/18TB硬盘,后续也都是如此,以免遇到闲置嫌浪费、用嫌小、卖嫌麻烦的窘境。

第三阶段:磁带机 + 磁带

  • 起码lto5起步,适合需要备份的非重要[14]文件超过100TB,二手磁带机市场价约1k左右(2023年数据),磁带1.5TB(1.3TiB)二手约25-28一盘,但就论性价比来说,百T级别的存储量,算上冗余/耗损,单盘1.2TiB也着实寒酸了点,会增加很多操作量。lto5单盘空间显得很小,可lto6+磁带机价格指数上涨。
  • 且对湿度等环境要求较高,若无大型冷倍项目,其性价比并不见得高。

特殊阶段:云盘

  • 云盘算是一个特殊项,如主流的百度云,开了会员体验是非常不错的,国内云盘要体验好就需要开会员。国外云盘要空间大,就要买空间,且非常贵。
  • 云盘实际花费并不算低,而且云盘操作起来不如本地(上限也高,如谷歌的无限盘,但各服务商都在自我阉割、打击违规创建的无限盘)。

 

后记

  我只是用我的文字去描述我视角下一个纯粹(即非固定领域的爱好者)的数据收藏癖的样貌(表现特征、三要素)与前置需要(设备、经济和精力与时间投入)而已。是系列文章及OICSp需要所以如此书写,实际上您不需要成为我一样的“偏执狂”,您符合“我定义的”数据收藏癖,没有任何的益处;也不应该靠这种文章选择是否“入坑”数据收藏癖;这不是需要做决定的工作,这就是日常中慢慢累积起的兴趣与爱好。包括我自己也并非日日沉浸于此,都是什么时候心血来潮什么时候去做,这是兴趣,目的是取悦自己。

  试想一下,你存档着自己的生活经历,存档着历史的细节,看到一张图片你能回忆起当时所发生的事;很多好站点已经关闭,可你镜像了它们可以随时查阅;你转储了大量项目,什么3d打印素材、字幕文件、游戏、影音,各种资料,你可以随时阅览……

  数据收藏癖,是发自内心的,享受获得数据的快感,享受接触各领域带来的收获,以及享受保存历史的意义带来的满足感,和触摸过去引发的感悟。

 

注释栏

  1. 除了习惯了之外,感觉它更倾向于“偏执狂”,而其他更倾向于描述“囤积数据”的行为。
  2. 只是提前了解他们的存在没有任何门槛,不需要有什么内部消息渠道,只要经常看 r/DataHoarder ,在zlib事发前几个月我就已经关注他们了,原因只是当事人在sub内开贴了,在板内本身就挺有名气。而reddit是最简单且信息丰富新老皆宜的平台了。
  3. 泛指优秀站点、价值资讯等情报信息资源。OSINT项目便是此类。
  4. 必须经过审查,而非从他人导航站和索引中盲目摘录。未经审查的内容和采集类导航站无异,纯粹的无用之物。且上面排除过的低质量/转载变付费资源站亦为无用之物。
  5. 可持续化发展、主动挖掘价值站点、发现优质站点的意识和能力。这个也只能靠天赋/悟性/经验或慢慢累积。
  6. 泛指需要较多硬盘空间来存储的,如‘什么地方有什么资源’属于情报资源,‘这个资源’属于实体资源。资源重整理便是此类。
  7. 我倾向于本地,云盘只是备份资源的一种选择。 或存储非重要资料的备用选项。
  8. 极限竞速地平线中一场时间长的拉力赛,是谓萌新杀手。
  9. 就比如说nas的成本时,都是不包括硬盘的。这也算“常识”。但是很多对硬盘没有丝毫概念的人,便认为这是“坑”。
  10. 当然,在并不真正了解某个事情及行事逻辑的基础上轻易下定论与打标签的行为一定程度上也说明了某人了解这些信息完全不是因为感兴趣。
  11. 相对于深入了解过的领域下,已掌握的内容远大于已知的未掌握的内容。
  12. 比如随着各种交叉领域的事物而陷入各种分类困扰中
  13. 是的,自己的电脑这种是常识中的常识级别,原本不算入成本里的,但是很多人,尤其是有热枕心态的年轻人,往往是经常玩手机,而对电脑完全不熟悉的。以及精力多折腾起来轻松的学生群体大多是没有电脑的。但是这是数据收藏癖的基础条件。如果你真的什么都没有,那么你需要折腾的就不只是额外的硬件设备,还有最基础的个人电脑,或许文中还有很多亦如此类只是也被我忽略的,我认为的“常识”。总而言之,强调一句话,要么你有极大的兴趣,要么你有极大的精神定力。否则会半途而废,没有任何成果或成就感。
  14. “常识”的语境下,很多文件都可谓“重要”,但这里的指那些绝无仅有的文件,比如绝版的、绝迹的、独一份的文件。 对于此类文件,磁带只是做一个备份作用。你应该采取传统的容灾备份方式将重要文件多重备份,如果都是这类文件,那么磁带里也至少需要双重备份。