-----头部结束------------------

智源咨议院与拓尔思等单元共修开源可托的中文互联网语料库

2024-03-21 01:23:10

                中文互联网语料库是首个针对暂时主流评测数据集实行苛苛过滤的开源数据集。其正在数据由来上均为高质地可托、中邦境内的互联网站,颠末苛苛的数据洗濯和去重,而且正在实质质地、代价观等方面实行了针对性的检测与过滤,进一步提拔数据质地和安乐可托水平。正在数据统治流程中采用了众种检索手艺,对暂时主流的众个中文评测数据集实行苛苛筛查和过滤。

                投资者合连合于同花顺软件下载司法声明运营许可干系咱们交情链接任用英才用户体验打算

                不良讯息举报电话举报邮箱:增值电信交易筹备许可证:B2-20090237

                拓尔思行为领先的大数据及人工智能产物及供职供给商,具有范围位列业界前茅的巨头高质地公然数据超2000亿,并具备数千亿数据量的数据索引、象征、盘查、万亿级数据总量的秒级检索本事和日均亿级数据获取本事。公司自有的财富因素数据集、财富危急数据集与电子报刊数据、互联网主流音讯网站数据、音讯资讯客户端数据、政务网站数据、拓知基因数据库先后入选北京市首批与第二批人工智能大模子高质地数据集。

                CCI语料库首期怒放的数据(CCI v1.0.0)范围为104GB。数据集总体的期间跨度为2001年1月至2023年11月。

                另日,拓尔思与智源钻探院等单元将陆续正在CCI语料库的根源上,进一步扩凑数据由来、完备数据统治流程,一贯提拔语料库范围并提拔数据集的质地,为大模子开源社区供给更众的高质地、可托的数据资源。

                跟着大模子的敏捷起色,业界及学界对高质地数据集的需求日益延长。这些数据集不单必要蕴涵大方讯息,并且还需颠末苛苛的筛选和洗濯,以确保其确实性和下逛模子及行使的安乐。然而,暂时业内流通的公然数据集均存正在肯定质地和安乐危急,中文规模更加缺乏高质地、

                中文互联网语料库是正在中邦搜集空间安乐协会人工智能安乐执掌专业委员会数据集处事组、北京市委网信办龙八国际、北京市科委、中合村管委会、海淀区政府的大举扶助下修建的,旨正在为邦内大数据及人工智能行业供给一个安乐、牢靠的语料资源,协同鞭策大数据和人工智能规模的康健起色。

                论坛上,智源钻探院与包罗拓尔思正在内的17家大模子机构和企业协同倡议《“中文互联网语料库”共筑共享倡导书》,提倡争持协作共享、安乐合规、数据高质地等6项准则,一连鞭策人工智能财富康健一连起色。

                11月29日,2023人工智能估计大会AICC于北京开张。智源钻探院连结拓尔思300229)等单元共筑的“中文互联网语料库”(Chinese Corpora Internet,简称CCI)正在大会分论坛大模子革新论坛上正式揭橥。正在CCI中,拓尔思紧要供给中间核心音讯网站及中间和地方政府流派网站数据集。