链资讯 链资讯
Ctrl+D收藏链资讯

TON:AIGC创业 用爬虫技术做个知乎版GPT机器人合法吗?_STONKS

作者:

时间:

今年,GPT、AI绘画等人工智能大模型工具火热,许多人也想来追一波AI创业热潮,相关创业项目层出不穷。优质数据对AI大模型训练至关重要,只有拥有足够多的数据,才能训练出智能、强大的AI工具。我国互联网蓬勃发展二十余年,还能缺少数据?这不,曼昆律师最近接到网友咨询,准备用爬虫爬取知乎数据,做一个知乎GPT机器人岂不美哉?且慢,这其中的法律风险不可忽视。

01 爬虫是把双刃剑

爬虫技术是一种通过编程自动从互联网上获取数据的技术。它的名字形象、生动地表明了它的工作原理:模拟人类在网页浏览器中浏览网页的过程,进行数据采集和数据抓取。

网络爬虫广泛应用于搜索引擎、数据采集、广告过滤、大数据分析等领域。作为一种功能强大的信息采集程序,它能够显著提高工作效率,尤其是对海量数据的收集和整理。

英国法官:Craig Wright起诉Kraken和Coinbase必须支付40万英镑法律费用:7月26日消息,澳大利亚计算机科学家Craig Wright必须支付40万英镑(约合51.6万美元)的法律费用,以起诉加密货币交易所Coinbase和Kraken。

英格兰和威尔士高等法院法官James Mellor表示,他不相信Craig Wright有能力支付诉讼费。他指出,在周二发布的一份判决书中,此前有关Craig Wright财务状况的说法前后矛盾。

Mellor法官表示,这些证据“并不能说服我”Craig Wright或他的投资公司有流动资产来支付潜在的巨额法律费用;如果不提供担保金,他将在几周内撤销此诉讼。[2023/7/26 16:00:03]

然而,一旦技术被不正当使用,也会引发“虫灾”,导致网络拥堵、崩溃、服务器瘫痪甚至引发数据安全风险。我们熟悉的“裁判文书网”也不能幸免:

腾讯正有序推进ChatGPT和AIGC相关方向的专项研究:2月9日消息,腾讯相关人士向记者表示,腾讯目前在ChatGPT和AIGC相关方向上已有布局,专项研究也在有序推进。腾讯持续投入AI等前沿技术的研发,基于此前在AI大模型、机器学习算法以及NLP等领域的技术储备,将进一步开展前沿研究及应用探索。(科创板日报)[2023/2/9 11:57:22]

图:2019年,最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》

02 使用爬虫技术的风险

爬虫作为一项获取数据的技术手段,并未被法律禁止。但使用方式及使用目的决定了是否会产生违法的行为和后果。

DigiDaigaku交易额突破1000万美元,地板价升至15 ETH区间:金色财经报道,据最新NFT交易数据显示,NFT项目DigiDaigaku交易额已突破1000万美元,本文撰写时为1071万美元,市值达到4506万美元。同时,DigiDaigaku地板价现升至15 ETH区间,短时触及15.99 ETH新高,截至目前为14.5 ETH,24小时涨幅116.42%。此外,DigiDaigaku#729以29 ETH价格被巨鲸fuckthecops.eth购入,创下迄今最高交易记录。[2022/8/30 12:57:22]

使用爬虫技术, 能在短时间内对网站进行大量访问,频繁抓取页面和数据。这可能会导致网站的带宽和服务器负载急剧增加,从而影响网站的正常运行,甚至导致宕机或响应缓慢,干扰被访问网站的正常运营,严重时可构成犯罪。

动态 | 澳本聪Craig S. Wright所获得的美国版权注册没有要求限制,付费即可申请:据悉,澳本聪Craig S. Wright所获得的美国版权注册没有要求限制,只需付25美元填申请表,并且版权局不负责审核真实性,只有在发现敲诈的时候才会有2500美元的罚款。[2019/5/21]

杨某授权公司员工张某开发某信贷系统软件,该软件内的“网络爬虫"功能能与深圳市居住证网站链接。2018年5月,该软件连续两小时对深圳市居住证系统查询大量访问,致使深圳市居住证系统无法正常运作,极大地影响了该居住证系统使用方深圳市局人口管理处的日常运作。二人均构成破坏计算机信息系统罪。[(2019)粤0305刑初193号]

与使用方式相比,如何使用爬取的信息和数据,对爬虫行为的定性影响更大。

声音 | Craig Wright:软分叉是区块链上的癌症:nChain首席科学家Craig Wright今日在其社交媒体表示,软分叉不是比特币社区的一部分。它们是区块链中最糟糕的癌症,是由那些寻求社会共识而非竞争的傻瓜们的设计。[2018/10/11]

非法使用爬取的数据和信息主要有:

(1)盗取个人信息:使用爬虫技术恶意抓取网站上的个人信息,可能涉及侵犯他人隐私、个人信息,严重可构成侵犯公民个人信息罪。

(2)商业竞争中的不正当行为:使用爬虫技术获取竞争对手的商业秘密、定价信息、用户数据等,对数据整合后“搬家”到其他平台,通过这种便捷的方式获取大量有价值的数据、信息,以谋取不正当竞争优势。

 在“酷米客诉车来不正当竞争纠纷案”中,法院认为,未经权利人许可,利用网络爬虫技术进入权利人的服务器后台的方式非法获取并无偿使用权利人的实时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,且具有非法占用他人无形财产权益,破坏他人市场竞争优势,构成不正当竞争。

(3)侵犯知识产权:爬取受版权保护的内容,然后用于未经授权的公开传播或商业用途,属于侵犯知识产权的行为。

03 爬虫数据“投喂”大模型的风险

通过前面的分析可知,使用爬虫技术的风险主要在于爬取的方式以及爬取的内容,那是不是控制爬取的频率和内容,爬取公开内容,用来训练机器人就没有什么风险了呢?

首先,知乎官方账号早在2018年就发布了《关于知乎用户权益保护升级的公告》,提到:知乎对第三方开放知乎内容的使用采取白名单制,第三方需要通过官方合作渠道进行申请。如果爬取行为违反了知乎的服务条款,知乎可能采取封禁账号、IP地址或者其他法律行动。

摘自《知乎机构号使用规范》(试行)

其次,知乎上的内容通常由用户原创或授权发布,著作权归用户本人所有。未经授权地爬取和使用这些内容,可能涉及侵犯知乎的版权和著作权。

其实,训练AI大模型,“数据盗窃”并非个案。上个月,笔神作文公开指控昔日合作伙伴学而思,认为学而思通过爬虫方式“偷数据”训练自家AI产品。笔神作文表示,将通过司法程序解决纠纷,要求“学而思”支付1元赔偿金,公开道歉,并删除已爬取的数据。

04 小结

在人工智能创业的热潮中,数据变得越来越重要。在面对爬虫技术带来的诱惑时,应当认识到,虽然爬虫技术本身并未被禁止,但其不当使用可能导致法律问题,尤其是在涉及个人信息、隐私、版权和不正当竞争等方面。

《生成式人工智能服务管理暂行办法》中明确提到,训练数据处理活动时,应当使用具有合法来源的数据和基础模型。各位老板在创业过程中,要确保数据采集的合法性和道德性。如果想要使用爬取的数据训练AI大模型,务必事先获得数据来源方的授权,并遵守相关平台的规定。

刘红林律师

个人专栏

阅读更多

Foresight News

金色财经 Jason.

白话区块链

金色早8点

LD Capital

-R3PO

MarsBit

深潮TechFlow

标签:TONAIG比特币LEGSTONKSAIGPT价格比特币价格实时行情热议最新Legion Network

以太坊交易所热门资讯
WEB:SignalPlus:生成式AI简介_MODIC LTD

原文作者:Steven Wang“What I cannot create, I do not understand.”-Richard Feynman你左拥右抱着 Stable Diffusi.

NBS:Grayscale解读7月加密市场:山寨币市值占比提升 后续大盘走势取决于美国经济_AIR

撰文:Zach Pandl  编译:Luffy,Foresight News自 2022 年底以来,数字资产市场已经出现了明显的复苏迹象,加密行业正受益于技术和立法的进展.

NBS:zkSync和Polygon的是非 正上升到“开源精神”之争_HAI

今日,一场围绕着抄袭的口水仗在两家“L2 大厂”间展开,也吸引了广大吃瓜群众的目光。Polygon Zero 在推特上表示,zkSync 的开发公司 Ma.

ETH:金色图览 | 8月全球高质量Web3活动_区块链MOVEZ币

8.2-3 World BlockChain Summit Singapore  WBS 是世界上运行时间最长的专注于区块链、加密货币和 Web 3.0 的峰会系列.

加密货币:美国宣布首例涉及攻击DEX智能合约的刑事案件_WEB

美国司法部宣布了首个涉及对 DEX 运行的智能合约攻击的刑事案件。身为一家国际科技公司高级安全工程师的 Shakeeb Ahmed 利用他的专业知识,欺诈了在 Solana 上的去中心化交易所及.

ripple:SEC诉Ripple违证券法案将落幕 对加密行业意味着什么_加密货币

金色财经记者Jessy 为期两年半的美国SEC起诉Ripple违反证券法的案子终于将落下帷幕。7月13日,美国纽约南区地区法院法官就SEC诉Ripple案作出简易裁决,在法官所出的长达 34 页.