經(jīng)濟(jì)觀察網(wǎng)訊 3月19日,據(jù)中國(guó)信通院消息,中國(guó)信息通信研究院人工智能所基于前期的AI Safety Benchmark測(cè)評(píng)工作,發(fā)起大模型幻覺(jué)測(cè)試。本輪幻覺(jué)測(cè)試工作將以大語(yǔ)言模型為測(cè)試對(duì)象,涵蓋了事實(shí)性幻覺(jué)和忠實(shí)性幻覺(jué)兩種幻覺(jué)類型。測(cè)試數(shù)據(jù)包含7000余條中文測(cè)試樣本,測(cè)試形式包括對(duì)應(yīng)于忠實(shí)性幻覺(jué)檢測(cè)的信息抽取與知識(shí)推理兩類題型,以及對(duì)應(yīng)事實(shí)性幻覺(jué)檢測(cè)的事實(shí)判別題型??傮w涉及人文科學(xué)、社會(huì)科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和形式科學(xué)五種測(cè)試維度。(編輯 萬(wàn)佳)