都说医疗、金融等专业领域的语料数据稀缺,制约大模型AI发展,能不能让两个ChatGPT对聊,聊出点数据?近日,天桥脑科学研究院(TCCI)主办AI For Brain Science系列会议第二期“面向AI模型的数据生成方法及其对医疗领域的启示”。在上海交通大学计算机科学与工程系副教授吴梦玥主持下,青年科学家分享了关于破解大规模语言模型数据瓶颈的看法和实践。
“知识蒸馏”与快速构建专属GPT
国际上一项研究评估指出,ChatGPT回答癌症相关问题的水平已经与美国国家癌症研究所的官方回答持平。然而,ChatGPT只能通过受限的API进行访问。涉及到个人医疗,人们也普遍不希望将个人隐私信息分享给第三方公司。
(资料图)
针对这样的难题,加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出了一种能自动生成高质量多轮聊天语料库的流程,利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优、增强开源的大型语言模型LLaMA。他们从而获得了高质量的专属模型“白泽”,并在数天前推出2.0版本。这个名字的灵感来源是中国古代传说中的一种神兽,“能言语,达知万物之情”。
许灿文说,白泽在这个过程中并没有学会新的知识,只是提取了大模型中的特定数据,并且保留了ChatGPT分点作答、拒绝回答等强大的语言能力。这在专业上被比喻为一种“蒸馏”。他们进一步提出了反馈自蒸馏的概念,即利用ChatGPT当教官,对白泽回答的结果进行评分排序,从而进一步提高白泽模型的性能。
许灿文认为,白泽通过自动化的“知识蒸馏”,在特定领域达到ChatGPT的能力,成本却远低于ChatGPT,兼具经济意义和实用意义。在医疗领域,本地化或私有化建构的模型将有利于消除隐私顾虑,辅助患者诊疗。未来也许每个人都将有自己的专属AI助手。
数据生成新策:大模型优化医疗文本挖掘
ChatGPT具有创造性的写作能力,在医疗、金融、法律等标注数据很少的领域以及知识密集型领域表现出色。然而,具体到医疗文本挖掘,他们发现将ChatGPT直接应用大型模型处理医疗文本的下游任务,表现并不总是优秀。
莱斯大学博士生唐瑞祥和合作者提出了一种新策略:利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较直接利用大型模型执行下游任务,这一新策略能取得更出色的效果,同时因为模型数据在本地,也大幅降低了潜在的隐私风险。
他们进一步指出,随着开源大模型数量的增加和大模型能力提升,其产生的文本数据与人类产生的文本数据的差别将越来越小,能否有效检测出数据是不是GPT生成的,将影响到广大用户对大模型AI的信任度。
大模型时代的数据生成有什么不一样?
那么,在没有GPT的时代,科学家们如何解决数据稀缺难题?大模型又带来了哪些新趋势?
上海交通大学博士生曹瑞升谈到,深度学习本质上是一种找出从输入x到输出y的映射过程,所以需要大量的(x, y)数据对来训练。在医疗这样不容易获得大量真实数据的领域,就需要人为生成更多的(x, y)数据对。
展望未来,曹瑞升总结了数据生成在大模型时代的几大新趋势。首先是构建更通用的模型,以确保其能应用于多样化任务。其次是从特定任务出发,进一步精细化地处理。例如,在医疗领域,甚至可以针对特定类型的抑郁症进行专业化的任务处理,提供更精准个性化的解决方案。最后,数据生成和模型训练的过程将从分离走向融合,而为了保证数据质量的硬性过滤也将逐渐被软性控制所取代。
上一篇:环球速递!养仓鼠要准备什么 怎么训练仓鼠大小便首先要准备一个厕所
下一篇:最后一页
都说医疗、金融等专业领域的语料数据稀缺,制约大模型AI发展,能不能让两个ChatGPT对聊,聊出点数据?近日
今天来聊聊关于养仓鼠要准备什么,怎么训练仓鼠大小便首先要准备一个厕所的文章,现在就为大家来简单介绍下
摘要在老龄化、长寿时代背景下,“80”“90”后作为独生子女一代,面临的养老问题非常严峻,养老需要如...
陕西中南部未来三天阴雨持续部分地区有大到暴雨中国天气网讯未来三天(6月1日至3日),陕西中南部等地阴雨
iPhone15Pro手感完美了
许昌人才网官方网站,婚恋交友哪个网站靠谱许昌的这个很多人还不知道,现在让我们一起来看看吧!1、都不靠谱
据港交所披露,人工智能企业出门问问已向港交所递交上市申请。 出门问问成立于2012年,是一家人工智能公司
1、猴子用火眼烧八戒战争怒吼吸过去用墙弹他。本文就为大家分享到这里,希望小伙伴们会喜欢。
中国石油网消息(记者刘晓娣通讯员陈石榴)逐绿前行谋转型,亿起风光向未来。吉林油田新能源事业部汇总报表
今天来聊聊关于西咪替丁注射功效与作用副作用,西米替丁的文章,现在就为大家来简单介绍下西咪替丁注射功效
1、晴朗、晴空、放晴、晴和、响晴、温晴、转晴、晴襟、晴畅、晴明、晴碧、晴眉、融晴、晴暾、晴窗、晴曦、
改性塑料龙头普利特拟加码新能源业务,公司与浏阳经开区达成共识,将投资102亿元建设30GWh钠离子及锂离子电
大众夏朗商务车7座车怎么样?维修费高不,大众夏朗七座商务车价格这个很多人还不知道,现在让我们一起来看看
导读1、狂战士要到75级才能二次觉醒为血魔!顺便给楼主分享一下血魔的二次觉醒技能,望君采纳:血之爆弹75
联想今天(2022年6月14日)正式将其国际制造业务扩展到欧洲。这家OEM指出,它之所以选择位于匈牙利乌洛
鞭牛士5月31日消息,今日,字节跳动发布声明:近期,某上市公司在回复深交所年报问询函时,称计划与字节跳
一、碱性洗涤剂有哪些1、洗衣液就是碱性的,但是并不能够说所有的洗衣液都是碱性的物质,因为洗衣液也有区
随着新一代信息技术的发展,“科技兴安”成了为化工行业高质量发展保驾护航的重要抓手,也成为业内人士...
1、《最新图解木本花卉栽培指南》是2007年由江苏科学技术出版社出版的图书。2、作者是王意成。文章到此就分
1、消防控制系统中,消防电源的切断是很重要的一项目前消防控制模块的2种控制方式:有源输出型和无源输出型
高新兴:部分董监高拟向子公司高新兴创联增资不超1530万元:高新兴(300098)公告,公司部分董事、高级管理
日本通过法律使核电站可运转超60年---新华社东京5月31日电(记者钱铮)日本参议院5月31日通过《绿色转型脱
塞尔达传说:王国之泪内的活动中有多种道具可供玩家选择,但是一些新手玩家并不清楚《塞尔达传说王国之泪》
鞭牛士5月31日消息,人工智能公司出门问问于2023年5月30日正式递交招股说明书,拟上市于港交所主板。中金公
华胜天成(600410)05月31日在投资者关系平台上答复了投资者关心的问题。
X 关闭
X 关闭