四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿to
7月11日 天浪楼投稿 Arxiv上所有论文转成Token,加起来不过14。1GB而已。
这是最新爆火开源计划亚历山大完成的壮举。
事实上,这还只是第一步。
他们最终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型理解这个世界的方式。
一旦这样的数据集诞生,那岂不是为开发出GPT4这样的大模型又新增一大利器,上知天文下知地理指日可待了?!
消息一出,瞬间引发巨大关注。
网友们赞叹,史诗般的。
而这背后仅是四个平均年龄20岁的少年发起,目前Arxiv所有论文数据集已经发布,他们将于下周发布嵌入(Embedding)搜索平台。
从Arxiv上所有论文开始
这个名为亚历山大的开源计划,首先从Arxiv每篇论文上开始。
选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。
最经典的例子就是将原始图像表示为灰度像素。
这种技术最大的特点就是能够表示出人类感知到的语义相似性。
比如,当有10个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成,因此很适用于搜索、聚类、推荐和分类。
基于实用性和效率的考虑,开发团队只选择嵌入了论文的标题和摘要。
在测试各种模型之后,最终选择使用InstructorXL文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务(比如分类、检索、聚类、文本评估等)和领域(比如科学、金融、医学等)》
下周他们将发布Arxiv搜索。目前为止的流程是,首先对100篇最接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。
最终目标是一整个互联网嵌入计划。
20岁少年的疯狂开源计划
之所以要开展这样一次疯狂的开源计划,主要有两方面的原因。
一方面是嵌入巨大的价值。世界上很多问题只是搜索、聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。
另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元。
但他们并没有找到任何开放的嵌入数据集,因此这样的组织应运而生。
接下来他们还将开放更多的数据集,而这些均由这些用户自行选择。在官网上除了已公开的数据集,剩下的几个待开源项目开启了投票通道。
值得一提的是,背后是一群平均年龄仅为20岁的少年team完成的。
而他们的团队名字同样也很霸气,Macrocosm(宏观世界)联盟。
就官方介绍,他们致力于为ChatGPT和其他类似产品构建插件,同时也在开发核心产品,基于大模型的个人研究助理,帮助学习、教学和科研。
感兴趣的旁友可戳下方链接了解
https:alex。macrocosm。sodownload
参考链接:
〔1〕https:www。macrocosm。so
〔2〕https:twitter。comwilldepuestatus1661781355452325889
〔3〕https:github。commacrocosmcorp
〔4〕https:www。pinecone。iolearnvectorembeddings
完
(举报)
投诉 评论
AI软件测试的利与弊以及带来的挑战软件测试对于确保使用应用程序客户的满意度是十分必要的,人工智能可以在软件测试中,解决大部分重复性任务,那为什么人工智能不能完全替代呢?一、软件测试的背景Backgr……
在旅游领域,如何将科技与旅游的智慧结合?五一来临,除却各家电商如约而至的促销,以及各大景区初心不改的宣传,去什么地方和游什么项目,成为用户幸福的烦恼。在笔者不算资深的成长历程中,从业经历如同好色之徒一般,曾深度参与过……
用短视频赋能,AI传媒也有“趣缘社群”坎快手、火山小视频安卓版本的下架整改,内涵段子的停运,四款新闻资讯APP的下架处理,平台思维下的短视频内容方面频出问题,使得专注于平台搭建的短视频企业纷纷寻求新的定位。最近……
在打破传统保险业的“玻璃屋顶”之前,AI保险还需跨过几道坎由于保险行业参差不齐、条款复杂、理赔难等一系列问题,很多用户在买保险时都会犹豫再三。而随着AI的加入,虽然不能短时间内解决用户的全部痛点,但也确实对传统保险业有很大的促进。……
自然语言处理中“中文分词”技术中“自动切分”的几点理解本文主要针对其中最常用的一套《北大规范》为依据,来讲解中文词汇自动切分的几个重点流程。enjoy概述在人工智能中,自然语言处理是一门极其深奥的领域,自然语言处理在广……
前有红海,后有竞争,AI产品需要如何规划?在消费电子领域,各类产品层出不穷。如果你是产品经理,要怎么做市场分析?要怎么做产品规划?如下三种情形,你或许多少也遇到过:进入一个竞争市场。你们公司在一个领域有一定……
4个原因、3个问题解析:烹饪机器人为何煮不出妈妈的味道烹饪机器人可通过自身的锅具运动机构、工具运动机构、火候控制装置和其他必要辅助装置,完成整个烹饪的过程。可烹饪机器人缺乏灵活度,仍然存在许多的缺陷,有时并不能炒出你想要……
AI时代的时尚业将会是怎样?虽然人人都有爱美之心,但以前时尚一直都属于上层人士。而随着人工智能时代的来临,一直站在时代与技术前沿的时尚业也具有了大众化、平民化乃至AI化的无限新可能。时尚,似乎是一头……
下一个风口:正能量算法这是个有定语,有情感趋向的算法。那么,这事靠谱吗?一往无前的“算法内容平台”们,终于遇到了大阻碍。局势复杂,惨不忍睹。今日头条、快手、火山小视频等等推崇算法平台被网……
腾讯、微软等巨头在AI加速器上加速赛车,决定胜负的关键因素在随着AI加速器经验的积累,参与者越来越多,多数开发情境和任务都变成经验后,针对复杂开发任务、一次整合多个解决方案的“一键开发模式”最终将出现。到时候,加速器项目们搞AI开发或许……
当技术重塑健身产业,AI有可能胜过人类教练吗?本文作者将带领大家,一起看看人工智能可能对健身产业造成怎样的变化。enjoy一说起体育,我们总觉得这是人类的专属。毕竟也只有我们这一个物种会不断挑战生理的极限,不为了生产……
算法有没有价值观?知乎从技术维度给出了解释本文将来了解知乎这家公司的算法思路和应用,且详细介绍了知乎算法是如何通过识别垃圾广告导流信息,处理人身攻击类内容,或是识别答非所问等方面来维护平台氛围和内容质量的,其中不少思路……