OSINT项目章程

来自Wired
跳到导航跳到搜索

前言

  在互联网的领域,“情报”永远是最重要的,非技术领域尤甚。当然,识别“情报”的优劣与相性同样重要,适合自己的才是恰当的。OSINT本意是“开源情报”,可以泛指一切出现在公共领域的信息,并由此为基础获取、组织、分析出自己所需要的东西。传统的“网络社会工程学”(从反CP的角度,看OSINT技术)是如此,根据天文地理知识搭配卫星地图推断图片拍摄地点亦是如此。但在这里,我主要指互联网站点的情报信息项目,其中按照领域与社区阵地索引了我互联网生涯收藏的各路适宜公开的站点。

  新章程因精力问题由原OSINT项目规则精简而来,待我精力充沛时原规则也将卷土重来,只是那可能的未来非常遥远,故会用新结构维护。

  这一过程中或会使内容被分化,丧失了“项目初衷”的一站式索引的便利,我对此无能为力。

  2024年末的大更新中,OSINT项目无疑是变动最大的,在此之后我将优先于内容产出,而非结构,因为显而易见的原因,以我欠费的精力、微末的技术,是无法以个人之力撑起为集体协作设计的项目的,尤其是在设计时我不具备技术实现的能力从而不确定设计的方向是否有偏差(比如某些我认为后续可以用脚本简单实现的功能是否真的容易实现?某些我认为实现难度比较大从而用低技术/无技术方案替代是否其实很容易实现?选用的工作环境及标记方式是否有更好的策略从而不仅更规范还更容易移植?),所以在脱离了家里蹲生活后,我想长续发展该项目就必须做出变动,直到项目成为多人协作的、直到我拥有技术或拥有技术的人加入该项目从而站在技术的肩膀上设计真正高效的策略。在那之前,请您耐心等待,一味的统一或重复安排对我来说只是负担,因此OSINT项目会陆续被分化出很多专题,他们的设计策略或因此不统一及规范,无法使您通过一个文件获取格式一致的全部内容。

 

项目主体

项目分支

OSINT项目

情报与资讯存档

自编辑参考建议

工作文件(.MD)

 

政策规则

分发政策

现行分发政策:

  • 有内容更新的前提下每月分发 0~1 个工作文件合辑。包含内容如下:

主项:

  • osint.md(主要)

社区包:

  • chan.md(内容上限而更新停滞)
  • reddit.xlsx(平台抛弃而更新停滞)
  • discord.md(邀请制环境恶劣而更新停滞,计划有序启动)
  • telegram.md(使用倾向梗图而更新停滞,计划有序启动)

辅项:

  • 待验证内容.md (以工具为主的未实际使用过的内容,正考虑移植到替代方案专栏)
  • 网站坟场.md (逝去的站点/服务,极度需要重置ui)
  • b.txt (随机站点,主要为博客,但前几个版本或不囊括)

其他:

  • 集结号(在第一次公示时便放出了,只是未作广泛告知导致存在感很弱,考虑到性质问题仍旧不线上公示,而是随分发包传播,正在计划有序启动)

注意,所有文件均不包括R18及更甚内容站点,亦不会以任何形式交换、收容,对此请参考Wiki:宇宙免责声明#OSINT项目

 

版本类型

.MD版本

工作文件(源文件)即.md文件(个别为表格或纯文本)。

.html由源文件粗暴转换而成,故只公示用不存档。

书签栏版本

wiki:User:Cronfox提供之脚本通过.md文件OSINT现行基本编写规则转换而来。

下载脚本:https://scio.eu.org/WIKI/备份/附件/OSINT转换工具.7z

使用方式(仅测Linux系统):

  • 解压文件并于命令行进入工具文件夹内;
  • 运行 npm i 安装依赖;
  • 运行 node index.js osint.md 生成 osint.md.json 文件;
  • 运行 node builder.js osint.md.json 生成 osint.md.html 文件;
  • 通过浏览器的书签管理器导入osint.md.html即可。

脚本提供人注:parser.js, example.html和 output.json 源于 https://gist.github.com/devster31/4e8c6548fd16ffb75c02e6f24e27f9b9

编者注:由于我对书签栏没有任何需求,自己也未实际使用该版本,自OSINT项目创办以来至仅确认有一人需要此版本,因此缺少实际体验报告及优化方向;由于OSINT项目在编写时并未充足考虑转为其他格式的兼容性、我个人编写.md文档时本身就不那么规范、OSINT项目有大量题材独立为单独的项目等原因也缺乏妥善优化的根基。因此您可以根据需求选择是否使用此版本,并欢迎反馈使用体验、待优化部分、优化后的新脚本。

 

基本规则

目前实际仅作用于OSINT.md工作文件。

内容规范

  • 一级目录:一级目录-??X分类-一级目录标题
  • 二级目录:二级目录-??Y-二级目录标题
  • 三级目录:三级目录-??Z-三级目录标题
  • 四级目录:四级目录-??A-四级目录标题
  • 五级目录:五级目录-??B-五级目录标题
  • 六级目录:六级目录-??C-六级目录标题
  • ……目录以此类推
  • 正文:网站标题 | 简短介绍 标识区域(若有) | hxxps://网站url.com/ | 较长介绍/补充(若有)

内容规范(示例)

  • 一级目录:一级目录-04X专栏-计算机/硬件/DIY专区
  • 二级目录:二级目录-08Y-硬件/DIY
  • 三级目录:三级目录-06Z-装机/硬件
  • 正文:Build Guides | 装机指南/预演/社区 | hxxps://pcpartpicker.com/

部分符号注释

  • ??:当前分级下按顺序的编号(一级目录较为特殊,原始版本是按顺序来的,考虑到分发改成了更容易理解的顺序但序号保留)
  • 序号:X、Y、Z、A、B、C、D……W按照分级的增进而向后沿用,但一般到六级就是极限了。
  • 分类:一级目录专有,原为分类进行分组的一种标识,后改变了分组逻辑,但标识保留,用于标识该分类的站点基本种类/属性。

部分区域注释

  • 【网站标题】以官网名称为主,若过长可精简,过长的英文可自行翻译,但修改后的名称与源语言不一致应当加以语言标识。
  • 【简短介绍】重在精炼、简要,若做不到可按空处理,也可填中文译名,若分类已明确表明用途亦留空处理。
    • 应该在几个字内囊括,不要贴上宣传标语,而是概述它是做什么的、有什么用途。宣传语是【补充】要做的事。
  • 【补充】补全网站性质、描述,应该摘自官网介绍或译文、自己总结的简要介绍。或以目标站点的“关于我”或类似页面的信息为主。也可用来补全站点未声明的个人建议、想法、评价。
  • 若名称或分类、网站知名度足以有较高辨识度,可以不填写任何说明。

 

标识规则

注意,由于精力问题,现有收录内容除涉及盈利性质(如使用网赚网盘等)并未严格赋予标识,您可以反馈或给出自己的建议,我审查后进行标注。

注意,均含有强烈的主观情感,由我个人喜好判断,而不代表质量。比如scio系列站点也被授予了【顶】标识

正面标识:

  • 【神】:一些无法言喻的站点,他们的存在就是人类捡到宝了。特点必须是包括但不限于 涉猎范围广、内容质量高、研究方向新颖有趣有价值(如果有重复资源,则仅顺序第一位网站标注标识)。
  • 【顶】:因为某种原因不算做神级站点,但是超级出色,即授予此标识。
  • 【实】:实用向的站点,注意,实用指的并非工具类,工具类大同小异基本不会授予标识,而是特定领域具有很高的参考价值,通常只有在切实帮助我数次的站点才会授予此标识。
  • 【个】:个人的博客或者项目,内容质量非常优秀和突出即授予此标识。此为特殊标识,仅限个人博客/项目/站点使用,此类站点也只能使用此标识。

不授予任何标识的场景:

  • 诸如维基百科、reddit、IA等知名度高的站点不授予任何标识,否则满屏的标识,影响阅读,本末倒置。
  • 所属分类或名称已经完整表达其用途和性质的工具类站点(原则上也不给工具类站点授予标识)。
  • 如果一个站点是 封闭/半封闭 性质的(包括但不限于恶劣手段导致的资源垄断、注册限定),无论其多么优秀,都不会予以标识。

不授予【神】标识的场景:

  • 单独拿出来看确实优秀但在同类站点中算不上格外突出的(每个细分类别最多只允许存在一个【神】级标识)。
  • 所以如果一个(细分后的)类别中存在复数个优秀站点,则两个站点都不会授予此标识。

负面标识:

  • 【$】:不一定是直接收钱,各种强制注册、积分下载制度的站点(不包括正版平台)。
  • 【水】:内容很空泛,质量对不起噱头,但是因为一些原因还是收录了。
    • 由于一些原因(比如同类站点暂时匮乏、虽然各种麻烦,但是还没有找到、着手找良好的替代品),这些站点暂时被收录,但是项目初步完善后就要整治这些站点。
  • 【慎】:比如站点用的“网赚网盘”托管的资源,或者其他第三方服务,有一定风险的,会加上此标识并说明原因。
    • 鉴于实操的便捷性,我都安装了一些阻止广告、网赚短链的的拓展,部分站点声明了广告短链但部分没有声明,就是因为一开始的时候是关掉拓展测试的,后来觉得太不现实,毕竟此类插件几乎是必备的,谁想给予金钱外的支持可自行添加白名单,所以后续一直开着此类拓展测试,毕竟针对的大都是资源类站点,对于此类站点,下载方式才是最重要的,因此关于可被屏蔽的广告的标注或不准确。

特殊标识:

标识区域标识

  • {xxx}:该 站点 为某个已收录站点的子站、子项目时进行标注,不算重复站点。
    • 在“文章”或类似类别、场景下,需无视此规则。
  • [xxx]:语言标识,当站点【网站标题】使用语言与实际页面语言不同时进行标注(通常用于多语言页面的标注)。
  • 【待备】/【已备】:一些给不了上述正面标识但是我非常想将其备份下来的优秀站点,也是日后镜像站点的主要目标。(多出现于同类站点中有复数个优秀站点的情况,算是一个补偿机制)

其他区域标识

  • *:标注在【网站标题】末,意指此站点为重复站点,一般是因类别原因重复,按照命名规则居后者添加此标识,适用于重复量少的时候。
  • #xxx:在【网站标题】末,用来标注站点存活相关状态,比如“PS-Survival #重建中”,因为一些站点曾受益颇深,关闭中/恢复中的站点也会酌情留存一段时间,所以加以此标识注明。
  • <注释>:在该行/段落/部分的首或末端标注,表示这是一段注释,可以根据需要填写任意内容,主要是补充声明的用途。
  • [discord]:在【补充】任意位置,用来标注是否有discord社区群组,但是本计划起步于临近定稿之时,大量内容未标注。

所有出现的特殊标识均不得在非标识场景外使用,比如“”、“{”、“[”……。只能在规定的场合、场景使用,以便于后续的批量操作、整理。

 

数据处理细则

收录标准

  基本底线是非营销目的的网站、具有实质内容的站点。

  现收录一般经过两道基础审查手续:收录时的审查(纳入浏览器书签栏待办)、规范化时的审查(纳入.md工作文件);两道特殊审查手续:调整分类/优化描述/偶尔抽查时的再度访问、受反馈后的重新排查。审查标准则全凭个人喜好。

  本项目并不倾向于收录个人博客,因为众所周知的原因,个人博客的同质化严重,同质化较弱的生活类博客与本项目关联也弱,而技术类博客多为it类博客,其中尤以高度重叠的普通指南(及随便一搜成百上千一样内容)为主,即便具有深度实际有需求时仍需借助搜索引擎而不是逐个站内搜索,而本项目的初衷丝毫不包括鼓励个人博主创作,故对于个人博客或可参考建站/碎碎念#webrings所列博客联盟,后续博客类除历史遗留因素、题材及体/质量因素外,或将归于新颁子项目b.txt文档内。(但有计划做搜索引擎,内容以个人博客及一些优质社区为主,但考虑到需要的技术力和服务器性能并未打算开始)

站点排序

  通常情况下,在我主观判断下质量较好的站点会向前排列,但是质量相仿的会按照字母升序排列或收录时间排序。

  但质量并不是一个很好的参考标准,比如一些个人博客,涉及的类别不同根本无法对比,也不适合进行对比,我亦没有能力对比,所以那些站点的排列顺序就没有排名一说,但目前并未有哪些标识用于告知人们这条信息。

  因此OSINT项目没有传统的质量分级,我奉行的是分组和收录时间以及个人倾向(但我长久/实质的需求很少,这个存在感很弱)和首字母排序。其中分组是看的类别、题材、话题、体量、社区讨论度综合而行,而不是人们通常下意识认为的带有偏见的“质量”。

描述及用词

  我不想做一个站点评论员,“筛选”这一步骤在其被收录时就已经执行了,“排名/权重”也以个人喜好度及题材体现在其所在位置上,故基本原则是沿用站点方描述。

  但这样会有一些问题,诸如书籍资源网站数量的统计,基本源于官方站点的描述,或者汇总页面的粗略估计,但站点常有虚报、重复计算,甚至是一篇文章算一本书 等不应做参考的数据存在,因此,所有的描述请只做参考而非事实。

  除此之外,诸如“远程查看”(remoteviewing)、“折叠”(collapse),这种主流互联网译为“遥视”、“崩溃”的,因为历史因素——这种国内萎靡甚至是没有讨论的内容我都是以谷歌对页面的翻译为主,先入为主后,尽管后来产生/得知其他更贴切或流行的称谓,也因为自己并不实际与人交流而未有改变措辞的契机——便按照我个人喜好来了。

网站放置位置

  由于项目跨度问题,分类无法做到全面照顾,也不愿意太多重复内容,因此对于某网站符合多个分类的定义但网站并未瞩目到使我重复收录时,具体放置位置就较为模糊了,基础的原则是优先归于具倾向性的、更高层级的、同类更多的。

  比如“某OBE社区”同时符合“三级目录-02Z-重超自然”、“二级目录-06Y-OBE/出体”,但其即为社区,前者所属的二级目录(二级目录-01Y-/X/讨论)又比后者更靠前,故放置于前者分类下。

  比如,图书库、百科的性质归类于高排名且同题材/性质站点更多的【书库】和【百科】专区/分类。