链资讯 链资讯
Ctrl+D收藏链资讯
首页 > Polygon > 正文

EPIK:小牛思拓董事长兼CEO王会珍:数据标注助力知识获取_iht-real-estate-protocol

作者:

时间:

1月10日,2021开源知识运动线上研讨会成功举办。EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱SIG主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与,各位专家学者纷纷发表主题演讲,为开源知识运动做了不同角度的解读。

今天我们来分享东北大学计算机应用专业博士、小牛思拓(北京)科技有限公司,董事长兼CEO王会珍主题演讲《数据标注助力知识获取》,全文如下:

谢谢主持人的介绍,感谢Epik的邀请,很高兴参加今天的研讨会,今天我的演讲题目是数据标注助力知识获取,王昊奋老师提到了知识图谱的构建和审核,邢老师讲解了区块链的发展趋势,同时也提及了数据体系的构建融合,这种跨领域的数据的挖掘应用,包括知识体系的构建,实际上所有工作,我是认为都是离不开数据标注的。

小牛思拓已做了三年的数据标注服务了,今天跟大家分享这些年我们在数据标注方面的经验。

我是东北大学自然语言处理实验室的老师,实验室从80年开始做自然语言处理。我从硕士博士都是做ROP方向的,在做算法时,在研究方向上发现,基本上都是在少数例题做验证。但是2012年成立公司做产学研落地时,团队发现实际上小数据是很难进行落地的,比如说机器翻译。以小牛思拓的一个产品小牛翻译为例,当前可以支持304种语言的互译,而且翻译质量非常好,这得益于有中英两亿个聚对后台支撑,用深度学习的方法去训练机器翻译引擎。因此,在做算法或人工智能方法技术落地实践中,数据标注就显得更加重要。只有高质量的带标注的数据才能支撑算法学习。

达拉斯小牛队老板:加密货币冬季不会到来:金色财经报道,达拉斯小牛队老板、亿万富翁Mark Cuban在以太坊全球峰会上表示, 加密货币冬季不会到来,原因是投资于比特币的人数已激增到一定程度,投资者会在价格跌到残忍的低点之前回购。 Cuban此前表示,以太坊比比特币具有更大的潜力。如果价格出现大幅回调,他认为比特币的风险更大。[2021/5/7 21:31:47]

什么是数据标注?

什么是数据标注?数据标注是小牛思拓的重要业务之一。公司一开始定位的是做文本的标注。在这个层面,其实大家对图像和声音的标注会更熟悉,比如人脸识别标注出来加在图片里;比如,在线会议可以直接同屏有字幕,这种可以由语音自动转换成文字的标注。

下面是文本标注的两个例子,其中一个是从一句话里面能标注出来实体,并要找到两个实体间的关系;另一个是智能语音对话形式很火,如发布一个问题,首先,我们要理解出来这个问题的意图是什么,这个问题还有很多种方法,不管是哪种方式去提问,我们都可以找到它对应的答案,所以这里面是我们一个问句复述的例子,给出一个问句,我们标注师要能够写出来十个句子,不同的说法,但是跟这个句子的问题都是一致的,这个是复述的例子。

接下来是从图像、声音、文字不同的处理对象,进行一些标注的样例,实际上最终的都是要有大量的人工去标注好的,或者是半人工标注好的带标数据来供机器训练和学习。

当前有几千家数据标注的公司比如京东百度等都有众包平台,通常都是群体智慧,包括区块链也是加入了很多的群体智慧。这就不得不提数据标注的重要角色—标注师,来了数据任务的时候,我们就需要给他进行任务分配,这是传统模式。

达拉斯小牛队老板:当加密在竞争中更具生产力时便会成功:达拉斯小牛队老板、亿万富翁Mark Cuban发推表示,当加密在竞争中更具生产力时便会成功。BTC、黄金都是金融宗教。 BTC易于交易/存储/创建,没有交付问题。 BTC还可以在本地和全球范围内进行价值转移。Eth智能合约在认证/购买/销售/交付数字物品方面比现有的替代品更好、更便宜、更快。这使得它成为适用于所有数字事物的可行货币和交易机制。它功能强大且会随着应用程序的增加而增长。与银行相比,Eth智能合约更能实现金融工具的存款/储蓄/交易。

在山寨币可以为其持有人提供奖励的情况下,因为它们通过提供更高生产力的服务而获得收益,因此它们可以赢得足够的用户。这是非常有竞争力的。进入壁垒很小。这是所有参与者的风险。但是奖励更好的解决方案。

DOGE等主题币只有在获得效用并且用户使用其效用时才起作用。只要用户能花费DOGE,尽管其年通货膨胀率定在50亿代币,随着效用的增长可以获得一些价值。只要有更多的公司采用DOGE来提供产品/服务,那么它就可以成为一种可用的货币,因为它的购买价值可能会比美元更好。[2021/5/3 21:19:19]

现在我们新的模式,在两方面进行处理,第一个,在任务层面,由于有ROP的技术,我们会做一些相似任务的训练分析,我们认为把相似的问题都给同样的一批人,会提高效率。另一方面,利用一些自动的技术,比如说我刚才提到的去做关系抽取,可以做出来一个关系抽取的模型,对数据进行预处理,然后我去用模型先预标注,预标注的结果再扔给标注师,他们在里面进行审核校正,就可以提高标注的效率。这个是我们从数据模型和人员方面进行的新模式尝试。

Galaxy Digital创始人:达拉斯小牛队不应该接受狗狗币:针对此前达拉斯小牛队宣布接受狗狗币(Dogecoin)用于购买与该队有关的门票和商品,亿万富翁、Galaxy Digital创始人Mike Novogratz表示反对。Novogratz在接受采访时表示:“我们应该把人们放在最安全、最好的东西中,而不是这些笑话币。我认为Mark Cuban(小牛队老板)犯了一个错误。他还不如利用其他15种不同的付款方式来支持门票支付。”(livebitcoinnews)[2021/3/8 18:23:36]

经过三年打磨,目前,我们团队已形成了完善的数据标注工作流程。当我们拿到任务需求时,我们需要与用户明确标注规范,去试标,用户认可标注的方案和报价,彼此达成一致则正式开始标注任务。

首先,我们会对标注师进行培训,因为每个数据标注任务都是不同的,都需要重新进行培训。

其次,培训合格后,开始实施任务。实施的过程中我们就会有各种的质量的监控,有去完善标注的规范,再培训。

再次,并非达成一致后就原封不动地按照客户给确认的规范执行,小牛团队与客户是强沟通关系,我们不断的从规范迭代更新,规范重新定义好以后,我们再培训,再质检,不合格的实时淘汰。

在标注的实施过程,我们有自己的标注工具,我们会有一些抽检和埋雷,及时的发现标注师哪块可能会存在质量的不合格风险。再后面还会有一些抽检,这是在标注过程中随时做得。在确认标注质量合格后会提交给客户,客户这边进行验收,最终结算,销毁数据。

声音 | 小牛资本:区块链技术应用已延伸到数字金融等多个数字化领域:近日,中欧国际工商学院北京校区新年论坛在北京召开,中国国际经济交流中心副理事长黄奇帆出席并发表主题演讲,深度解读了数字化的构成与颠覆性作用,以及区块链技术的特征、应用场景和问题防范。黄奇帆指出,数字化平台在区块链技术的改造之下,基础功能和应用将得到大幅度扩展。对此,小牛资本金融研究院认为,区块链技术应用已延伸到数字金融、数字资产交易等多个数字化领域,而随着5G的到来,将促进\"区块链+数字化\"大幅度发展,相关应用不断优化。(中国经营网)[2019/12/20]

当前也在考虑是否可通过采用区块链的技术保证数据的安全,我们现在的处理方式就是提交完客户以后,我们会把数据进行销毁,这个是现在整个的标注工作流程。

数据标注如何助力知识获取?

数据标注如何来助力知识获取呢?知识获取简单的说,就是我们要用机器获取知识,有广义的知识获取,如机器里通过不断的程序运行,不断的进行知识的积累,它能够自动的,像人有理解和举一反三的能力一样,不断的对这个知识进行扩充;同时也有狭义的是如我们一直在做得,包括我们知识图谱的人员也在做的一件事,通过程序和人机交互或者是很多的知识图谱的工具,通过专家或者是领域专家来去构建知识库的过程。

知识获取的本质就是从这种爆炸性的信息里,去甄别判断,来提取对我们有用的知识。数据标注就是知识获取的一个过程,举个例子,比如说你被蒙上眼睛,让你看到瓶里是空的还是盛满水,你会怎么做?一种方式是不用把面罩揭开,把手伸到桶里试一下,这个是一种尝试的方法,另外一种方式是我往里面扔一个东西,听听发出了什么样的声音,就能感觉到里面应该是有东西的,是一个推理的方式。还有一种,我也不用做什么,我就询问一下,向值得信任的人问:这个桶里是有水吗?对方告知有水,我相信他。

声音 | 长江商学院曹辉宁:今年小牛市会有真正的应用落地:长江商学院曹辉宁于直播专栏中谈到,区块链基金去年损失很大,随着市场回暖,很多传统基金进来准备在区块链技术做更多的投资。他认为今年小牛市会有真正的应用落地。Bitimes基金创始合伙人宫明强则表示,在传统金融过程中监督、合规、风控成本高昂。区块链由可信信息的传递来实现低成本信息交换,与传统金融是天然的结合,消除传统金融一些高成本弊端。他补充到,每出一个新概念,总会先被一群子,再被一群投资者利用,最后才能轮到一帮热爱它的人坚守。待行业洗尽铅华,轮到正规军出场。[2019/5/13]

不同的知识的获取方法,实际上可以对应不同的标注类型。比如需要基于感知,把手伸进去判断是否有水,这是一个分类标注问题;基于推理的过程需要识别理解筛选归纳,可以对应到实体的标注;比如说我从一句话里面把人名地名结构名标注出来,这是实体的标注;在句子里看到内容进行推理判断,如这个到底是人名还是地名,这是阅读理解的标注;还有一个,信任,这个可以对应信息检索,我们养成了用搜索引擎的习惯,这个也是第三个标注的类别。

人们会问现在的技术这么发达了,当前的手段很先进,有爬虫和自动抽取自动分类,还需要标注吗?实际上我们可以靠爬虫对数据的来源关键词怎么得到的,爬取数据要怎么验证,刚才也提到了验证也有开源知识图谱审核的过程,怎么归类,怎么表示,还有自动抽取和分类之前的算法训练数据从哪来,这个是我们现在数据标注存在的非常重要的意义,能够去支撑前面的这些问题。

数据标注是构建知识库必须的手段,也是知识获取的一个基础和保证,我可以人工标注的结果做算法训练,通过人工标注进行知识的校验。

如何进行数据标注?

今天想给大家分享的是从另一个角度来给大家介绍,一个是什么样的标注服务是专业的。标注的速度快,标注的质量好,这个就是专业吗?实际上我们觉得不完全是。专业的标注服务是什么样的呢?

首先服务前建立合理的标注体系;不是用户提了一个需求以后,就完全按照客户的需求或者是客户给的标注说明,原封不动的做这个数据标注,我们会在看数据的过程中会跟客户商量,不断的完善标注体系。

之前,我们做过上百个项目,发现实际上在最早建立标注规范的时候,客户并没有审查数据,因此在真实的数据场景里,这个标注规范会有千奇百怪覆盖不到的,为此,我们会跟客户一同构建标注体系。

其次,标注的原始数据;有一些客户给我们提供的带标的数据,其实里面会有一些问题,比如说会有重复的,数据标注是按条计费的,这对客户来说是损失,包括里面相似的句子比较多,或者说句子里面覆盖的领域或者行业不太充分,这些我们都会给客户进行一些建议。

再次,标注服务建立完善的流程,这个流程也非常重要,是质量的一个保证。

最后,为客户提供强有力的保障;如客户需要两天就出标注的结果,从理解规范培训,前面的整个一大套的流程,就需要两天完成;当然客户有各种各样的需求,因此要给用户提供一个强有力的保障,我们达到这四点,才认为数据标注是一个专业的。

事实上,不仅仅是服从和服务的过程,我们的标注团队还希望和客户构建一个深度信任的合作伙伴的关系,来共同做好这件事情,使得标注出来的数据有价值。

在数据标注过程中有以下几个环节构成,每个环节都在扮演不同的角色,比如标注师、标注规范、标注系统等等。

有人会问,什么样的标注师是好的?标注师的学历分布,背景,这个虽然重要,但不是最重要的。公司里面有300多个比较稳定的兼职标注师。这是我们从两三千人里经过培训做任务筛选下来的。专业的标注师一定是热爱标注行业,同时充分理解用户需求。

标注流程,标注流程不是固定的,它会根据客户的或者我们的任务场景需求不断的去变化,如果比较繁杂的数据,我们可能会先给他一个聚类的环节,给他聚成堆,比如军事领域聚在一起,有一些标注人员比较擅长理解这个领域的这些数据,我们就给他分配这样的标注师。比如说项目进度比较紧张,像刚才那么一大堆的流程,可能至少有一周的时间,我们需要根据客户的需求来简化流程,保障进度。

除此之外,标注规范也是比较一个需要关注的节点。这是一个必须要经过反复验证的过程,之前客户给我们一个规范半页纸,在我们做完的时候标注规范已经写了三十多页了。因此标注规范是标注过程中不断去完善的。标注规范要保证它的全面,也要保证标注效果。

还有一个就是标注规范的呈现形式,客户给我们的往往都是实际上是技术人员写的,比如说算法工程师写的,如果让不懂算法的人去看的时候,就会非常的麻烦,所以我们在里面还会有一个过程,就是原始规范的改写,我们会把标注规范呈现的方式,让标注师更容易理解。因此,在整个标注服务过程中,我们专业的标注规范,要有明确的标注内容,标注时候的规律,基本的处理原则,还有一些注意事项,所以这些都要在规范里把它都表述的非常清楚,而且要用通俗易懂的语言来描述出来。

接着是标注系统,知识图谱构建的工具,我们这个标注系统实际上之前也开放过。标注系统可以完成各种标注任务的,当前标注系统支持图象的二倍拉框,语音转文字的标注,还有文本方面的标注,如实体的标注,关系标注,事件的标注,包括分类,类型的标注,问句的意图标注,包括对话的生成等等。

标注系统实际上是为了提高我们标注效率的,这个系统的构建实际上就是需要减少标注人员在系统外的操作,会根据任务在标注系统里嵌很多,比如嵌入搜索结果,从百度搜索还有各种搜索引擎的结果,帮助标注师去理解概念,提高标注的效率和一致性,这些都会在标注系统里进行考虑。

标注过程一定是不断的反馈更新培训和淘汰的过程,单纯的一次质检是保证不了质量的,所以在整个的标注服务过程中,构建了四重机制,比如说质量的把控,抽检,埋雷,多人标注,数据安全的机制,应急的预案,包括人员预留,突发事故的应急组等等,另外,我们还会有一些考虑,包括过程的控制,比如说规范的适用性,规范的确认改写,包括培训测试,包括状态项目进度的监控,包括反馈机制,包括实施过程等方面,总之,通过各种机制,我们来保证标注的质量。

EpiK?Protocol?铭识协议

EpiKProtocol致力于去中心化的超大规模知识图谱构建,通过去中心化存储技术、去中心化自治组织和通证经济模型,组织并激励全球社区成员将人类各领域知识梳理成知识图谱,共建共享并持续更新这一人类永恒知识库,从而将人工智能(AI)的视野拓展到更智能的未来。

通证名称:EPK

EPIK官网?:

https://www.epik-protocol.io/

EPIK白皮书?:

https://www.epik-protocol.io/EPIK-whitepaper-cn.pdf

EPIK经济白皮书:

https://www.epik-protocol.io/EPIK-whitepaper-economy-cn.pdf

EPIKGitHub:

https://github.com/EpiK-Protocol

EPIK电报群:

https://t.me/EpikProtocol

来源:金色财经

标签:EPIKPROTCOLROTEpiK ProtocolProton Loaniht-real-estate-protocolNeural Protocol

Polygon热门资讯
300:币姥爷:比特币并无大跌的基础_杭州女子花300万买比特币后续

市场中的洗盘是漫长而又枯燥的,雨神继续在圈子中为大家捕捉信号,抓住突破机会以及规避下跌风险。今天国内外有两件大新闻,其一,比尔盖茨收购了24.2万英亩农地,成为美国最大的地主.

COL:蜘蛛生态DT One通证交易所1月18日正式上线_TONE

关于蜘蛛生态DTOne交易所DTOne交易所作为数字资产综合金融服务平台,面向全球用户提供币币、法币、矿池等数字金融衍生品全生态服务,同时结合企业链改和通证商城孵化全球优质企业通证.

TOC:亮亮说币:1/18ETH凌晨行情实时分析.我们要顺势而下._Kine Protocol

一直相信,这世界上,有一种默契是可以沁骨的,犹如一种初相遇,不是在路上,而是在心里,没有擦肩而过,却会留下瞬间惊喜,不用回过头去,那过往的涨跌,依然是心中的美丽,一波行情,一次感动,遇见单边.

科技股:大财理财解读涨停个股超百只指数全天探底回升后_ETH

盘面剖析 昨天的盘面再度呈现了黄白线违背的走势,三大指数盘中振幅加大,商场做盘风格快速转化,资金开端从“抱团股”转向到了低位破位新股中,次新股接连2个交易日活泼拉升.

MAC:?金佳说币:1.18ETH凌晨行情分析与操作策略_MACH

金佳说币:1.18ETH凌晨行情分析与操作策略从4小时图来看,目前价格1230置附近波动,MACD红色动量持续放量,KDJ三线目前处于50轴上方向下发散,CCII线常态区上扬趋势.

DEF:摩根大通高管就稳定币监管和加密支付竞争发表看法_rETH2币

在摩根大通2020年第四季度业绩电话会议上,关于OCC最近批准银行使用稳定币进行支付,以及这是否会对摩根大通自己的代币JPMCoin的发展产生影响.