你的位置:开云(中国)kaiyun网页版登录入口 > 电影 > >开yun体育网创建一个高效、精准的数据标注平台-开云(中国)kaiyun网页版登录入口
热点资讯
电影

开yun体育网创建一个高效、精准的数据标注平台-开云(中国)kaiyun网页版登录入口

发布日期:2024-12-06 07:56    点击次数:156

开yun体育网创建一个高效、精准的数据标注平台-开云(中国)kaiyun网页版登录入口

如果要列出当下全球最有权势的一位95后,他的名字应该大多数东谈主都没外传过——亚历山大·王(Alexandr Wang)。

这位在硅谷被称为“下一个扎克伯格”的天才少年,在2022年借助着生成式AI的海浪,得手登上《福布斯》全球亿万富豪榜,也凭此成为了史上最年青的空手起家的亿万富豪。

尽管在一年后其创立的公司Scale AI因估值大幅下滑,他的名字也从富豪榜上祛除。

但在本年5月,跟着Scale AI晓谕得到10亿好意思元融资,估值138亿好意思元(约为东谈主民币1000亿元),亚历山大·王也再一次回到大家的视线当中。

从2016年创立到成为千亿估值的独角兽企业,亚历山大·王和Scale AI用了短短8年的时期,而凭借着Scale AI,亚历山大不仅在AI数据标注行业演出了一段传奇创业故事,也在全球AI激越中饰演了一个“卖铲东谈主”的脚色,为马斯克、奥特曼、扎克伯格等一众科技大佬提供数据赞成,某种进程上来说,他影响了通盘这个词AI世界的模式。

一、“卖铲子”的天才少年

如果用一句话总结亚历山大·王的创业故事,那一定是一出场就手持爽文大男主脚本。

1997年,亚历山大降生于好意思国的新墨西哥州,其父母都是物理学家,在新墨西哥州洛斯·阿拉莫斯国度实验室责任。

对于亚历山大这个名字的由来,还有一个蕴含中国文化的故事:

Alexandr(亚历山大)是其名字的英文拼写,但比通用拼法少了一个e。在中国传统中,数字“8”承载着许多好意思好寓意,是以他的父母就想让他的名字刚好为8个字母。

受到家庭氛围的讲明,亚历山大从小就是“别东谈主家的孩子”:

小学时,亚历山大便展表示数学天才的一面,到了初中,亚历山大就读于顶尖私扬名校洛斯·阿拉莫斯,数次在好意思国数学东谈主才聘任赛中拿下铜牌、金牌等;

上了高中后,亚历山大又自学了编程技能,成为好意思国筹办机、物理、数学奥林匹克竞赛上的常客,得益均名列三甲;

此外,他9岁时学过小提琴,还精通中语、英语、法语等多种言语,不错说是“文理两吐花”。

除了学有所成,在高中时,亚历山大就收到了多家硅谷科技公司的责任邀请,他先是去了硅谷最热点的金钱投资大数据不休平台Addepar,之后又加入了“国外版知乎”Quora从事编码责任并担任技能主宰。

也就是在Quora,亚历山大领略了同为华侨的女孩Lucy Guo,后者也将成为Scale AI的聚会首创东谈主。

2015年,凭借优异的得益,亚历山大考入麻省理工学院(MIT),主要攻读数学和筹办机专科。左证领英(Linkedln)的个东谈主贵府骄气,亚历山大在MIT求知期间GPA为5.0(满分),且其选修的如故预计生级别的筹办机科学课程。

也恰是在其麻省理工学院上大一期间,DeepMind推出的AlphaGo,驯服了围棋世界冠军,开启了东谈主工智能的元年和深度学习的激越。

“我记允洽时我在大学里,尝试使用神经网罗,尝试践诺图像识别神经网罗。我很快意志到,这些模子在很猛进程上仅仅数据的居品。”

亚历山大在后头一次采访中曾回忆起上大学时的念念考,“这些模子或AI总体上是由三个基本撑持组成——算法、筹办才能和数据。”

在其时,如故有公司在预估计法,比如OpenAI或Google的实验室,或者其他一些AI预计机构;至于算力,英伟达也已展示出了为这些AI系统提供算力的诱导者后劲。

惟一莫得公司专注于数据,亚历山随意志到跟着东谈主工智能技能的耐久发展,数据智谋变得越来越紧要。

于是在麻省理工大一刚戒指后的暑假,亚历山大决定从MIT辍学,与此同期Lucy Guo也从卡内基梅隆大学辍学,两东谈主一同创办了Scale AI。

其时许多东谈主为这两位天才的半途辍学感到恻然,以为这就是一场豪赌,但亚历山大的看法却不一样:“如果现在不肯意迈出这一步,那什么时候会开心呢?”

这里还有个流传的小插曲:

在大一戒指后暑假的某一天,亚历山大跟爸妈说,我暑假搞了个名目玩。

爸妈问到,啥名目啊,送柠檬水如故送外卖?

亚历山大回应谈,差未几吧,搞了个AI公司,还有个叫Sam Altman的给我投了点钱,对了,airbnb(爱彼迎)亦然他们投的,现在估值也就300多亿好意思金吧。

除了拿到Y Combinator(山姆·奥特曼时任总裁)的天神轮投资,在创立第一年,Scale AI还拿到了风投巨头Accel的A轮融资。两方资助下,Scale AI初期的资金梗阻被扫清。

在竖立之初,亚历山大对ScaleAI的假想是打造一个一站式服务中心,贬责AI生态系统中的数据撑持问题。

因此,Scale AI早期的定位就是通过谀媚自动化技能与东谈主力审核,创建一个高效、精准的数据标注平台,为创建机器学习算法的公司快速处理和标注大领域的数据集。

所谓的数据标注,是指为图像、文本、视频或音频等原始数据添加结构化信息,以便机器学习模子约略和会和学习这些数据的过程。

无为来讲,就是给你一段视频或图片,让你比物丑类地标出里面的行东谈主、车辆、建筑等元素,某种进程上,这是个小学生也能作念的事。

自然旨趣很浅易,但这些经过标注的数据对于东谈主工智能的发展不行或缺。AI模子需要大都的标注数据来进行学习,才能具备识别、分类和预测等功能。

这里值得一提的是,尽管一些自动化器具不错加速部分标注过程,但为卓绝到高质地、高精准度的标注数据,仍然需要大都的东谈主工来处理、艳丽和考证数据,尤其是在一些如医疗、自动驾驶、军事等对高精度有条件的领域。

事实上,在Scale AI崛起之前,数据标注行业在AI领域耐久处于“旯旮”位置,其对大都东谈主工的需求使得外界打上了管事密集型产业的标签。

在大多数东谈主看来,数据标注行业既不“AI”,也少许都不“性感”。

但就是这么一个“低门槛”的“吞吐活”,被亚历山大在8年时期里干出了一家估值千亿的AI独角兽;在2023年《期间周刊》发布AI领域最具影响力的100个东谈主物中,亚历山大与李飞飞、黄仁勋、李彦宏等东谈主共同入选榜单,其本东谈主更是其中最年青的东谈主之一。

而在这背后,亚历山大又是教唆Scale AI如何作念到的?

二、从0到估值千亿,8年时期Scale AI作念对了什么?

尽管数据标注看起来是一个低门槛、管事密集型的行业,但在2016年的节点,它却是一个为数未几的空缺市集。

除了谷歌、亚马逊等少数大厂因业务需求建筑了我方的数据标注部门外,大多数公司不肯意也莫得元气心灵去我方不休,这导致标注数据的获取的过程耗时且腾贵。

而这也恰是Scale AI“卖好铲子”迅速发展的契机所在,而且再回归Scale AI八年的发展历程,其得手也不错说是天时、地利,加东谈主和的一个遵守:

1.天时

在创立Scale AI后,8年时期里亚历山大教唆通盘这个词团队收拢了东谈主工智能行业发展的几次大风口。

先是自动驾驶领域。

2016年是AI期间的元年,也相通是自动驾驶周期的早先,在那一年Cruise被通用以超10亿好意思元的价钱收购。

蔼然到这一音书后,亚历山随意志到自动驾驶行业对于数据标注将产生大领域的刚性需求——自动驾驶技能的发展依赖于大都高精度的标注数据,比如谈路场景、行东谈主和其他物体的图像数据,车企需要数见不鲜小时的视频数据进行标注来践诺和考证其算法。

“咱们构建了第一个赞成传感器和会数据的数据引擎,赞成2D数据和3D数据的组合,即激光雷达加录像头,这些开导装配在车辆上,这很快成为通盘这个词行业的法式。”

通过成就高效的数据标注平台,以及使用模子辅助标注和数据预处理来加速了数据处理过程,使得标注成本和时期得到大幅度镌汰,很快Scale AI就诱惑了通用汽车、丰田和Waymo等车企的互助。

亚历山大和Scale AI也凭此在自动驾驶数据标注领域站稳脚跟。

而在2019~2020年期间,这个阶段自动驾驶行业技能方面已基本闇练,加上其时言语模子和生成式AI还未诞生,东谈主工智能领域处于一个高度不细则时期。

于是,亚历山大和Scale AI开动专注于政府欺诈,“这是一个赫然具有高度适用性的领域,而且在全球范围内变得越来越紧要。”

也恰是在贫寒新市集的过程中,Scale AI也从当年单纯的数据艳丽蔓延到数据服务,提供从数据艳丽和不休、模子践诺和评估,再到AI 欺诈开发和部署的全过程贬责决议。

在之后几年时期里,Scale AI在数据领域迅速崛起,客户也推广到了医疗、国防、电商、政府服务等领域。

另外,为了打法某些行业数据不及的挑战,Scale AI还向卑鄙蔓延到合成数据的生成,通过从现存数据中创建新的数据集,匡助践诺模子。

与此同期,Scale AI在这一阶段也开动发愤于生成AI,与OpenAI开展互助,在GPT-2上进行RLHF的初度实验。

“其时的模子十分粗拙,简直看起来不如何样。但咱们以为OpenAI是一群明智的东谈主,咱们应该与他们互助。是以咱们与发明RLHF的团队互助,并从2019年开动继续改进。”

2022年,ChatGPT的问世震恐世界,生成式AI领域迎来了大爆发——生成式AI模子需要海量的践诺数据来进步其生成本色的准确性和千般性,加上大言语模子的爆发式增长极大推动了通盘这个词行业对高质地标注数据的需求。

而靠着和OpenAI的互助,在生成式AI赛谈Scale AI已霸占先机,到了今天Scale AI更是成为了通用AI的数据锻造厂,为OpenAI、Meta、Microsoft等行业内险些通盘主要的大型言语模子提供赞成。

2.地利

除了收拢这些行业风口到来的时机,亚历山大还借助着全球化这一地利上风,终说明在数据标注行业里的成本最小化。

因为好意思国东谈主力成本立志,在LinkedIn、indeed等平台上,数据标注的兼职时薪大多都在30-200好意思元之间,但动作一个管事密集型业务,这在客不雅上就条件企业去念念考贬责数据坐蓐问题,或者采购考虑服务。

于是在2017年,Scale AI 竖立了 Remotasks 动作其里面外包机构,在肯尼亚、菲律宾、委内瑞拉等地建筑了几十家机构,辞世界各地培训了数见不鲜的数据标注员,这些标注员的责任大部分都是按件计酬,一次标注的收入低至几好意思分,许多合约工在时薪致使不到1好意思元。

曾有业内东谈主士指出,“Scale AI不是一家东谈主工智能初创企业,它仅仅一家提供低价劳能源的公司”。

但无论外界如何质疑,无法否定着实是,在这么的“全球工场”模式下,Scale AI的毛利率耐久保持在65%以上,Scale AI也成为了当下AI领域为数未几不需要烧钱,而是狂赢利的AI初创企业之一。

2023年,Scale AI年化收入高达7.5亿好意思元(约合54.3亿元东谈主民币),预测2024年底将达到14亿好意思元(约合101亿元东谈主民币)。

3.东谈主和

除了营收快速增长,创业8年时期,亚历山大和Scale AI的背后还汇集了一支豪华的投资东谈主军队。不仅有着泰半个硅谷圈大佬,也出现了亚马逊、英伟达、英特尔、Meta等超等大厂。

在前文咱们提到,Scale AI刚创立地,就永别得到硅谷驰名孵化器Y Combinator和风投巨头Accel的赞成,前者的时任总裁山姆·奥特曼在后头的OpenAI又与Scale AI 开展了互助,尔后者机构的结伙东谈主还曾将家里的地下室借给Scale AI临时办公。

而此后5、6年时期里,Scale AI也基本是一两年就融一次资,而参与投资的机构和个东谈主在这个过程中赫然也不啻是进行资金上的匡助,更是在多方面都进行了助力。

2024年5月,Scale AI再次官宣完成F轮融资,融资额10亿好意思元,估值增前途步80%至约138亿好意思元(约1000亿东谈主民币),投资方声势号称史诗级豪华,20多家机构和个东谈主:

老激动Accel领投,Index Ventures、Founders Fund、Coatue、Thrive Capital、Spark Capital、老虎基金、Greenoaks、Y Combinator、Wellington Management和GitHub 前首席实行官 Nat Friedman络续加码,同期英伟达、Elad Gil、亚马逊、Meta、念念科、英特尔、AMD、DFJ Growth、WCM、ServiceNow Ventures也参与了这次融资。

时来世界齐同力。毫无疑问,动作这一波AI海浪中的“忽闪群星”中的一颗,亚历山大和Scale AI注定要留住浓墨重彩的一笔。

也正如亚历山大在完成F轮融资后在采访中讲到的:“Scale AI为现在市集上险些通盘率先的 AI 模子提供数据赞成。借助这次融资,公司将投入旅程的下一阶段——加速丰富前沿数据,为通用东谈主工智能铺平谈路。”

而贬责东谈主工智能的数据问题将是他一世为之奋斗的行状。

三、中国为什么莫得Scale AI的诞生?

事实上,看完Scale AI的发展故事,大多数东谈主可能会产生的一个疑问是,为什么中国莫得访佛于Scale AI这么的企业诞生?

尤其是在生成式AI激越前,国内的东谈主工智能行业在欺诈方面一度率先,而且数据标注动作管事密集性企业,中国自然就有上风。是以为什么呢?

总体来看,这背后有几方面的原因:

1.“资源罗网”

这里先引入一个“资源罗网(丧祭)”的见解,什么是资源罗网,就是指一个国度或地区领有丰富的自然资源,但因为过度依赖这些资源,漠视了其他潜在的经济增长领域,如制造业、服务业和技能改进等,导致经济发展单一、结构不对理,同期跟着这种自然资源短缺或市集需求下落,经济可能会碰到严重打击。

典型的例子即是委内瑞拉、俄罗斯,它们依靠石油、自然气等赚取大都的外汇,但除了能源行业外,其它的经济产业都十分逾期,这种国度也被称为“资源丧祭型国度”。

一定进程上,在AI数据标注行业,国内也堕入了这种资源丰富的“丧祭”。

事实上,国内的数据标注业务也很早就起步发展了,但并莫得酿成领域。许多龙头企业自然竖立了数据标注部门,但主若是为自己业务服务,而并不是寻求将数据与各个行业进行资源匹配;

加上依靠国内的东谈主口红利,让标注后的数据获取成本变得十分便宜,哪怕是今天堂内的数据标注价钱依旧偏低,拿重庆这种新一线城市来说也仅为4~6k/月。

在这种情况下接纳技能平台或者进一步研发来提高数据标注或是从标注行业进一步进取延展改进,对于处在市集竞争中的企业而言,可能反而是收之桑榆的作念法。

但一朝在这个阶段错过了对数据标注行业的技能改进或千里淀,也许就恒久地错失了改进升级的契机了。

2.生态不及

这里的生态不及体现在两个方面,一是单纯从言语生态来讲,必须要承认,英文的使用范围是全球,而中语的使用范围更多如故在国内以及国外的部分华东谈主。

是以在数据标注这一产业上,Scale AI自然就有了上风,站在老本的高地,在全球范围内寻找着价值凹地,而国内哪怕是有东谈主口红利,这成本上风终究更高,且在老本(投融资)方面也莫得占据高地。

另外,需要提到的是在数年前,跟着转移互联网模式的闇练,国内互联网生态在其时也进一步走向了扞拒顽固,而这也使得数据在流畅上出现了阻碍,致使不错说其时的数据标注行业也被动参与到这种扞拒顽固的生态中去,各为其主、各自而战,无法酿成有用的、领域性的改进力量。

3.视线局限

对于数据标注行业,站在其时阿谁节点,唯有少数东谈主能因为敬佩而看见。

在国外,也唯有亚历山大等寥寥几东谈主,在国内这么的东谈主赫然就更少了。

事实上,大多数参与到数据标注行业中的东谈主,更多就是秉持着过往的管事密集型产业的逻辑,靠着“内卷”来终了生涯以及盈利的。

然则亚历山大不同的是,尽管行业逻辑是管事密集型的特质,但对于他而言,这仅仅最基础的少许,是动作构建起通盘这个词数据行业险峻游生态的一个跳板。正如其在最近的访谈中谈到,东谈主们如故用尽了互联网上的通盘数据,想要开发出比GPT-4.5更渊博的东谈主工智能,则必须构建前沿数据。

所谓的“前沿数据”是指那些与欺诈场景密切考虑、能实时反应最新趋势和变化的数据,时常包含大都长尾或有数的场景,有助于进步AI在非典型情况下的推崇,推动东谈主工智能才能的领域向复杂推理、多模态等标的发展。

跟着AI的快速进化,将来的数据践诺需要更多地与特定任务、特定欺诈场景相匹配,因此也需要挖掘和坐蓐出更多新的、各别化的数据,而这可能也恰是亚历山大在2016年时就看到的将来。

从这个角度来看,Scale AI动作一面镜子,其从最“低价”的行业中成长为一个估值千亿的AI独角兽企业有太多不错学习的地点了。

参考贵府:

[1].从麻省理工辍学,他干成亿万财主,环球东谈主物

[2]. 估值1000亿,辍学90后华侨天才,刚刚融了72亿,融中财经

[3]. 给AI公司“打杂”,95后华东谈主把估值作念到138亿好意思元

[4]. 95后开yun体育网,一举融资70亿,投资界



上一篇:体育游戏app平台那和熏兔有什么永诀?简总有东说念主以为她是男的-开云(中国)kaiyun网页版登录入口
下一篇:体育游戏app平台不外从现在播出几集来看-开云(中国)kaiyun网页版登录入口