生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

比真实数据还有效?训练AI,硅谷早已用上了合成临床数据热闻聚

4月24日 不回头投稿
  NFT、Web3。0后,硅谷最近抢起了生成式AI。
  当大语言模型(LLM)掀起的浪潮波及世界的每一个角落,越来越多的人相信,生成式AI赋予我们的不仅仅是单纯的交互它能够作为一种新式的生产力,逐步颠覆我们的工作与生活。
  最先嗅到变革趋势的是专注前沿科技的投资者们。硅谷FusionFund的创始合伙人张璐已经好久没有看到如此狂热的景象。作为最早投资AI在医疗领域应用的硅谷投资机构,FusionFund过去几年一直对生成式AI的医疗应用领域有所布局,投资组合中包括Huma。AI、深透医疗等优质医疗AI企业,有的被投企业早在两年前就已经与OpenAI有了诸多合作。
  “生成式AI的垂直领域应用,需要该行业拥有海量的高质量数据,才能最大化地体现它地技术实力。而医疗领域恰恰拥有海量的高质量数据,人类社会中大约30的数据与医疗相关,是最大的品类,在此基础上生成式AI为医疗领域带来了巨大的机会。”张璐说。
  与诸多热门赛道不同,医疗领域表面上沉寂着数以亿计的大数据,但若落足于具体的临床场景,开发者时常会为数据的数量、质量与数据的获取成本发愁,尤其是在应用级临床AI的研发方向上,限制其发展的,正是医疗数据的稀缺性。
  这一次,熟稔于绘图作词的文艺AI们,能否入驻医学专业,为临床AI的发展再注活力?
  生成式AI赋能临床的两条路径
  AI的发展趋势大致可归纳为两个方向,一是单任务辨别式AI模型,单病种AI辅助诊疗、分类、检测等均是这类AI应用的典型例子;二是生成式AI应用,局域数据生成更高维度的信息,例如预测医学图像数据、生成健康报告等。
  两个方向均依赖于临床数据进行模型训练,亦受限于临床数据的缺失。张璐表示:“早在2018年前后,研发人员便尝试采用小样本学习、生成对抗网络(GAN)等方式弥补训练样本量不足的问题,也是从那时开始,生成式AI便已应用于医疗之中,只是如今它的定义更明确,强调在深度学习之上搭建TransformerModel。”
  以FusionFund投下的深透医疗为例,该公司的核心业务为利用AI加速MRI、PET成像速度,并提升成像质量,这个过程本身就是利用生成式AI处理原始数据获取合成数据,再根据合成数据重构MRI、PET影像。
  “MR临床扫描中的部分序列常常出现信噪比偏低、伪影明显等情况,影响最终影像的生成。发布于IEEE的研究“OneModeltoSynthesizeThemAll:MulticontrastMultiscaleTransformerforMissingDataImputation”结果显示:在AI的支持下,通过T1、T2等现有图像间接生成新的图像(例如更高分辨率图像、其他对比度、模拟打造影剂的图像等),其效果甚至可以优于直接成像。目前,我们能将MRI、PET的成像过程提速410倍,并减少10倍造影剂的使用,基于更新生成式AI的模型也将不断提升产品性能”深透医疗CEO宫恩浩告诉动脉网。
  “此外,我们也在通过做一些imagedegrader的工作,把一些金标准高质量的图像变至更接近实际扫描获取的低质量图像,进而训练出新的模型。这种融合了多重数据的diffusionmodel(扩散模型),它的效果要明显优于通过传统手段训练的模型。”
  国内AI企业数坤科技则是将生成式AI用在了冠脉CTA的图像增强上。在与上海市第一人民医院的合作中,双方将GAN用于冠脉CTA图像后处理中,成功修复运动伪影,最终提高冠脉CTA的成像质量,使其诊断准确性达到冠脉造影的“金标准”水平。
  定量分析结果显示,使用GAN技术修复运动伪影后的冠脉CTA图像质量显著高于修复前的冠脉CTA图像
  通常而言,需要64排及其以上排数CT才能完成心脏CTA扫描,而生成式AI可以让32排甚至16排的CT执行起CTA的扫描任务,取得满足医生诊断需求的影像。从理论上讲,这一技术赋能可以有效提高基层医疗服务能力及服务质量。
  MR同理,通过AI赋能,更普遍的1。5T设备或者低场便携设备大幅提升图像质量,实现3T等高端设备的诊断质量与扫描效率。
  总的来说,生成式AI在单任务辨别式AI应用中的作用路径,均是基于原始数据生成合成数据,并将其应用于最终结果的生成,实现影像增强。同时,整个模型训练过程中,生成式模型可以同来进行数据扩充(DataAugmentation),从而基于较小数据量以更快速度获取更为优质的图像,有利于研发人员开拓更多数据量相对缺失的场景。
  相较于主攻分析能力提升的单任务辨别式AI,生成式AI应用的能力则有一些超脱于当下医疗需求之前。举一个不那么恰当的例子:辨别式AI应用可以评估患者当下的健康状态,而生成式AI应用意在预测每一人身体的未来。
  目前国内尝试生成式AI应用探索的项目非常有限。一个典型的例子是鹰瞳Airdoc与北京大学临床研究所、爱康集团开展的视网膜研究。通过观察40万人的视网膜血管和神经的发展变化,研究人员让生成式AI自学,去判断受检者接下来的发展变化,评估未来心脑血管病风险有多高。目前相关研究已发表在国际知名期刊《ScienceBulletin》之中。
  据鹰瞳科技表示,以生成式AI为基础的阿尔茨海默病风险预测、近视进展预测、帕金森风险预测同样处于研发之中。如果上述疾病能通过AI实现预测或早发现,及时的防治措施能够帮助大量患者规避疾病风险,避免后续漫长且不可控的治疗。
  生成式AI能够生成临床数据吗?
  既然单任务辨别式AI应用与生成式AI应用都在运算的过程之中使用了生成数据,那么我们是否也能像AIGC在金融、艺术中的应用中那样,直接生成医疗数据呢?
  美国圣路易斯华盛顿大学医学院信息学研究所去年开启了一项基于生成式AI生成患者合成数据集的研究,意在为广大科技医疗研究人员提供更为丰富的数据,为各类医疗AI的研发提速。
  该研究使用了以色列公司MDClone研发的生成式AI模型。MDClone的系统与医院的EHR直连,可以抽取患者数据进行脱敏,把数据按照特定维度打散,再利用其自研的生成式AI模型进行重新组合。通过这一路径,MDClone可以根据基于少量电子健康记录中真实的患者数据准确地生成大量合成数据,重建真实患者的特征。
  在后续的研究中,相关人员将合成数据集与真实数据集置于三个特定任务下进行对比,分别为分析儿科创伤患者的死亡风险;预测哪些住院患者最有可能发生败血症;制作圣路易斯地区一年内按邮政编码划分的衣原体感染率地图。
  该对比研究结果显示,合成数据分析的结果在统计上与真实数据的分析相似,各项数据集都得出了相同的结论。在绝大多数情况下,统计结果是相同的,只有在极少数情况下,真实数据集和合成数据集之间存在差异。
  这一研究结果与深透医疗在影像加速中的研究结果方向一致。这也意味着,过去准备训练数据往往需要耗去研究人员数个月的时间,而在生成式AI模型的赋能下,研究人员可以在数小时至数日内建立、查询并下载自己的合成数据集。
  此外,这一生成合成数据的方法还创造了一种严格的患者隐私保密方式。由于合成数据无法与真实的人和身份联系起来,医院或能借助这一技术将数据变为一种特定的资产,在不侵害患者隐私的前提下,最大化相关临床研究。
  同样的逻辑亦可用于影像数据中。
  在训练辅助诊断类人工智能的过程中,患者影像数据的不均匀分布常常会影响最终模型在实际应用中的效果。
  以皮肤病AI为例,该AI在处理影像时需要同时计算多种皮肤病的概率,但由于人的皮肤肤质及患病类型并非均匀分布,仅考虑患病种类一个维度,湿疹、毛囊炎的数据频率偏高,银屑病的数据频率则会相对偏低。
  常规算法可以虽然可以实现影像数据的合成,但其合成数据质量与真实数据质量存在差异,不能完全替代真实数据的价值。生成式AI的出现则补全了生成逻辑方面的缺陷,让生成数据不仅保有质量,还能加快生成过程,扩大生成数据的量级。
  英伟达在影像类合成数据中早有布局。2022年,英伟达与伦敦国王学院使用Cambridge1超级计算机创建一套包含10万份大脑合成图像的数据集,借此训练AI应用以加快对于痴呆症、帕金森病及其他脑部疾病的理解。其生成逻辑与文本有相似之处,便是将真实数据拆分为素材,再通过特定逻辑的AI进行组合,进而解决数据量稀缺的问题。
  合成数据的另一个潜在应用场景在于多病种判别式AI的审评审批。
  多病种AI的临床试验设计是一个复杂的过程。譬如,多病种AI(以N2为例)在进行数据集构建与算法验证时,不仅需要构建病种A数据库与病种B数据库,还需要构建AB数据库,并需在模型之中添加医学知识,使其能基于医学原理解释交集数据的概率得出过程。
  当病种数量较少时,构建融合数据库的难度尚且可控。而在当前审评审批逻辑下,病种数量一旦增多,各病种组合的样式及需要的数据集丰富程度则会呈指数趋势上升,数据不均匀分布导致的障碍也会进一步凸显。
  譬如,糖网病变的0期、6期患者数据天然较少,企业很难在真实世界中找到足量满足验证数据集要求的数据量。若将病种的组合考虑在内,相关数据收集复杂程度将急速扩增,最终变成一个现实之中无法解决的难题。显然,应用生成式AI对部分稀缺维度进行数据扩增有希望解决这一问题。
  深透医疗已拿到FDA、CE、NMPA等各地认证,宫恩浩在采访中告诉动脉网:“合成数据的应用贯穿AI应用全流程,FDA有明确要求申报公司阐述清楚训练和测试用到的真实临床数据的数量和细节,但FDA没有对合成数据的使用量及使用环节进行明确规定。另一方面,影像增强过程中产生合成数据并以此重建影像与直接构建合成数据集进行AI训练两种方式存在差异,后一种方式仍然存在探索空间。”
  中国人工智能医疗器械标准化技术单位及NMPA对于数据质控的标注制定及讨论同样走在全球前列,目标是针对训练数据、预训练、迁移学习等方面的建立完善的标准。如今生成式AI的进一步拓宽,或能加速相关法律法规及审评审批条款的制定,使多病种AI的审评审批获得理论与经济上的双重可能。
  距离硅谷,我们还有多远?
  近日,国家互联网信息办公室发布了一则关于《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知,有意将生成式AI尽快纳入监管范围。
  对于这项仍处于野蛮生长中的技术,有效的监管将为其带来更为良性的发展空间,也利于企业及早规避可能的政策风险。不过,要在国内全面推动生成式AI的发展,需要依靠不能只是监管。
  “任何技术创新都是由基础技术创新,到技术应用创新,最后带来商业模式的创新。目前国内的生成式AI发展与硅谷存在一定差距,既存在于模型方面,又存在于数据方面。在美国,以OpenAI为代表的科技公司已经完成了GPT模型、大语言模型(LLM)等基础设施的搭建,这意味着,美国已经进入到了创新的第二阶段技术应用创新。”张璐表示。
  要追赶硅谷并不简单,一方面需要有科技公司完成基础模型的突破,让后进的创业公司们能够通过API去调用先进的模型;另一方面需要加速多模态数据的治理,为模型的专科化培养提供数据支撑。
  回到国内,哪些企业能够承担风险扛起AI跨时代发展的责任?还需时间给出答案。
投诉 评论 转载

再爱一个人,也不要用“这种方式”去对待爱情,对待爱人热文聚热 有一种爱,叫情太深,爱太满,想继续、又不能;想退、又退不出来再爱一个人,也不要用“这种方式”去对待爱情,对待爱人爱情不怕爱,就怕越是爱你,你却离我越来越远。明……符咒(道家神符霛咒秘传41页)热议聚热点网 以《阴阳师》原班人物和故事内容作为基础的全新MOBA游戏《决战平安京》开启测试,让许多玩家体验了到了一种全新的风格,与其他MOBA游戏相对比,《决战平安京》除了依托于《阴阳师》……官方网站网址是什么?热闻聚热点网 腾讯官网的网址是腾讯首页。通过互联网服务提升人类生活品质是腾讯的使命。腾讯把“连接一切”作为战略目标,提供社交平台与数字内容两项核心服务。通过即时通信工具QQ、移动社交和通信服……ChatGPT的弱点,说明人与人工智能没有本质的区别热文聚热 从鹦鹉,到乌鸦1、人工智能不只是ChatGPTChatGPT火了之后,有一个段子,说:我们过去想象的人工智能是,我们写诗画画编音乐,AI烧饭洗碗修电脑,没想到,最后……微软或将精简硬件产品线SurfaceDuo2可能成为安卓双屏 近期,微软举办了秋季发布会,推出了SurfaceLaptopStudio2和SurfaceLaptopGo3以及SurfaceGo4三款硬件产品,同时还发布了PromptFlo……格斗游戏中国角色专属猥琐动作,这么设计是何目的?热博聚热点网 最近一段时间《街头霸王6》阿鬼火了,这位来自中国的暗杀高手,精通蛇拳的同时还是一位用毒高手。她的战斗技巧相当诡异,犹如灵蛇一般扭动身体,可以任意扭曲身体,甚至可以在地上爬行,从……无缘双冠王!朱婷赛季战绩数据汇总,效率第一,MVP引争议热闻 意大利女排联赛季后赛半决赛G3落下帷幕,最终斯坎迪奇主场23不敌米兰,总比分12落败无缘决赛,错失加冕双冠王的机会,以联赛第三名的身份获得下个赛季的欧冠参赛名额,接下来的决赛将……野地现无名女尸山西警方发协查通告:35岁至50岁之间,身高约 据法治日报5月9日报道,8日,山西省怀仁市公安局发布一则寻找尸源的协查通告。通告称,5月6日,怀仁市公安局接群众报案,在怀仁市云东街道黎寨村村东发现一具无名女尸。经现场勘……小微贷款及时雨,广发银行上海分行努力服务新市民热议聚热点网 在繁华都市中,新市民作为重要人群,正被广发银行上海分行赋予更多的关注和照顾。广发银行上海分行积极响应国家号召,全心全意为新市民提供优质金融服务,致力于解决他们在生活、工作中的各……高屋建瓴是什么意思(高屋建瓴是说建筑雄伟吗?)热博聚热点网 有些同学平时积累不到位,考前不知该重点关注哪些内容,其实,对于需要积累记忆的基础知识,只要平时每天记上几点,考试就会遇到老朋友。四个选项,遇到一个,用排除法,正确率就是3……汾酒这么有名,为什么山西人很少喝,反倒钟意这2款酒?你喝过没 说起山西的名酒,如果汾酒说自己是第二,恐怕谁也不敢说自己第一。汾酒作为清香型的代表,在全国享有极高的威望,很多酒友来到山西旅游,其目的大多都是为了品尝最正宗的汾酒。可是到……比真实数据还有效?训练AI,硅谷早已用上了合成临床数据热闻聚 NFT、Web3。0后,硅谷最近抢起了生成式AI。当大语言模型(LLM)掀起的浪潮波及世界的每一个角落,越来越多的人相信,生成式AI赋予我们的不仅仅是单纯的交互它能够作为……
颜色只是人类的“发明”?如果人类不存在,那宇宙还有颜色吗?热 南京一家四口,自驾8小时到淄博吃烧烤,结账时差点走不了,为啥 为天翼量身定制多普达S900c详细评测热评聚热点网 华为手机有望回归5G!华为将重获5G芯片?这纯属于瞎编乱造的 为什么说地球才是文明的摇篮呢?热传聚热点网 佛罗里达州(罗里达半岛的背后)热闻聚热点网 3。7祈愿池是烟雾弹?万叶复刻并非好事,宵宫神子可不抽!热闻 20!00!意甲争四大局已定:尤文国米将晋级欧冠,罗马5轮不 军校(27所中国军校)热传聚热点网 新能源转型不利,合资品牌成为国有汽车集团的痛点?热文聚热点网 小米上新:269拿下大功率,大容量的米家智能电蒸锅12L够全 五月海口,花果飘香热文聚热点网
7年后专家预测墨尔本房价暴涨,还赶不上今天北京上海深圳房价!兔子咬人吗柳姓男孩名字鼠宝宝工信部推动统一手机快充标准!你的手机有快充吗?大型商城的订单系统是怎么设计的你知道吗?淘米水的日常小妙用淘米水洗脸有助舒缓皮肤瘙痒为什么有的母亲喜欢在地铁上教孩子读课文读英语?感觉这种父母真灵魂摆渡4有望8月播出?原班人马被换,作品集数引争议浙江的平均退休金高吗?为啥看到许多景点的浙江老人特别多?也说二代友情为什么孕妇情绪波动大

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西