言語モデルにおけるデータ汚染への対処
クローズドソースの言語モデルにおけるデータ汚染のリスクを調べる。
― 1 分で読む
最近、研究者たちはさまざまな自然言語処理タスクに対して大規模言語モデル(LLM)をますます頼りにしている。でも、多くのモデルはクローズドソースで、トレーニングデータや動き方の詳細が公開されてないんだ。この透明性の欠如は、データ汚染への恐れを引き起こしている。
データ汚染とは?
データ汚染は、モデルがトレーニング中に見たデータを使ってパフォーマンスを評価することが起こるんだ。これにより、モデルの能力を正確に示さないパフォーマンス指標が膨れ上がる可能性がある。特に、モデルが直接または間接的にトレーニングされたテストデータで評価されるときに問題になる。
クローズドソースモデルとその問題
多くの広く使われているLLMはAPIを通じて提供されていて、その内部の仕組みは一般にはアクセスできない。だから、研究者たちはモデルが特定のデータセットに触れたかどうかを簡単には判断できない。結果として、多くの研究が意図せずに汚染データに依存し、他のモデルとの信頼できない比較を招く可能性がある。
系統的な分析
研究文献の系統的レビューでは、GPT-3.5やGPT-4のような主要なLLMにおけるデータ汚染に関する驚くべき数字が明らかになった。多数の学術論文を調べた結果、多くがこれらのモデルに利益をもたらす可能性のあるデータを漏洩していることが分かった。この分析を通じて、多くの研究がデータ汚染の問題を十分に考慮または報告していないことが観察された。
データ漏洩の規模
調査によると、GPT-3.5やGPT-4のモデル評価中に263の異なるデータセットから470万件以上のサンプルが漏洩したことがわかった。この広範なデータ漏洩はパフォーマンス評価の信頼性やその結果の有効性に深刻な疑問を投げかける。
評価の不正行為
文献のレビューでは、評価に関するいくつかの懸念すべき慣行が明らかになった。多くの研究は、評価に使用されたデータセットの違いによって不公平な比較に悩まされていた。たとえば、あるモデルは小さなサンプルのサブセットで評価される一方、他のモデルは全データセットに対してテストされた。こうした慣行はモデルの効果に関する誤解を招く可能性がある。
研究への影響
これらの発見の影響は大きい。データ汚染が起こると、特定のモデルのパフォーマンス評価が歪むだけでなく、研究分野全体に広範な影響を及ぼす。汚染データに依存すると、科学の進歩が妨げられ、これらの評価に頼るステークホルダーを誤解させる可能性がある。
今後の推奨慣行
これらの問題に対処するために、研究者はクローズドソースモデルの評価においてもっと厳格な慣行を採用すべきだ。以下は推奨する慣行:
データ漏洩を避ける: 評価を計画するとき、モデル提供者のデータポリシーを確認すべきだ。適用可能な場合はAPIアクセスを使用することで、意図しないデータ漏洩を防げる。
パフォーマンスの解釈には注意: クローズドソースモデルのパフォーマンス指標を解釈する際には注意が必要だ。結果を評価する際にデータ汚染の可能性を考慮するべき。
オープンモデルとの比較: 研究者はクローズドソースの代替モデルを公正に評価するためにオープンソースモデルとの比較を含めるよう努めるべきだ。これによりモデル能力を評価する際の公平性が保たれる。
透明性: レポートには使用したデータセット、評価の方法論、モデルがテストされた条件について明確な詳細を含めるべきだ。この透明性は再現性を助け、発見の信頼性を高める。
定期的な更新: モデルは頻繁に更新されるため、研究中に使用されたモデルのバージョンを明示するべきだ。これにより研究間の一貫性が保たれる。
オープンソースモデルの重要性
プロプライエタリモデルはより良いパフォーマンスを提供するように見えるかもしれないが、研究者は可能な限りオープンソースモデルを使用することを考慮すべきだ。オープンソースモデルは透明性と精査を促進し、より堅牢な評価と比較を可能にする。
結論
クローズドソースLLMにおけるデータ汚染は、研究者や実務者にとって大きな課題をもたらしている。既存の文献の系統的な分析は、データ漏洩と評価の不正行為に関する広範な問題を示している。前進するためには、研究コミュニティは評価の信頼性を確保し、自然言語処理の分野におけるより信頼できる進展を促進するために、より良い慣行を採用する必要がある。透明性、注意深い解釈、オープンな比較を優先することで、研究者はデータ汚染の影響を軽減し、広範な科学コミュニティにとって発見の価値を高めることができる。
タイトル: Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs
概要: Natural Language Processing (NLP) research is increasingly focusing on the use of Large Language Models (LLMs), with some of the most popular ones being either fully or partially closed-source. The lack of access to model details, especially regarding training data, has repeatedly raised concerns about data contamination among researchers. Several attempts have been made to address this issue, but they are limited to anecdotal evidence and trial and error. Additionally, they overlook the problem of \emph{indirect} data leaking, where models are iteratively improved by using data coming from users. In this work, we conduct the first systematic analysis of work using OpenAI's GPT-3.5 and GPT-4, the most prominently used LLMs today, in the context of data contamination. By analysing 255 papers and considering OpenAI's data usage policy, we extensively document the amount of data leaked to these models during the first year after the model's release. We report that these models have been globally exposed to $\sim$4.7M samples from 263 benchmarks. At the same time, we document a number of evaluation malpractices emerging in the reviewed papers, such as unfair or missing baseline comparisons and reproducibility issues. We release our results as a collaborative project on https://leak-llm.github.io/, where other researchers can contribute to our efforts.
著者: Simone Balloccu, Patrícia Schmidtová, Mateusz Lango, Ondřej Dušek
最終更新: 2024-02-22 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.03927
ソースPDF: https://arxiv.org/pdf/2402.03927
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.kaggle.com/datasets/ratthachat/writing-prompts
- https://github.com/facebookresearch/opendialkg
- https://huggingface.co/datasets/allenai/prosocial-dialog
- https://huggingface.co/datasets/multi_woz_v22
- https://github.com/alexa/dstc11-track5
- https://paperswithcode.com/dataset/dstc7-task-2
- https://huggingface.co/datasets/ConvLab/multiwoz21
- https://github.com/smartyfh/MultiWOZ2.4
- https://huggingface.co/datasets/newsroom
- https://github.com/thu-coai/OpenMEVA
- https://github.com/neulab/REALSumm
- https://github.com/Yale-LILY/SummEval
- https://github.com/facebookresearch/flores/tree/main/previous_releases/flores101
- https://paperswithcode.com/dataset/wmt-2020
- https://www.statmt.org/wmt22/translation-task.html
- https://github.com/IndoNLP/nusax
- https://github.com/biomedical-translation-corpora/corpora
- https://paperswithcode.com/dataset/wmt-2014
- https://github.com/facebookresearch/flores/tree/main/flores200
- https://github.com/google/wmt-mqm-human-evaluation/tree/main/generalMT2022
- https://inklab.usc.edu/NumerSense/
- https://www.cs.washington.edu/nlp/arithmetic
- https://huggingface.co/datasets/aqua_rat
- https://www.microsoft.com/en-us/download/details.aspx?id=52628
- https://github.com/friederrr/GHOSTS
- https://github.com/openai/grade-school-math
- https://huggingface.co/datasets/ChilleD/MultiArith
- https://gitlab.cs.washington.edu/ALGES/TACL2015/-/blob/master/questions.json?ref_type=heads
- https://github.com/arkilpatel/SVAMP
- https://github.com/bruzwen/ddxplus
- https://physionet.org/content/mimic-cxr/2.0.0/
- https://www.merckmanuals.com/professional/pages-with-widgets/case-studies?mode=list
- https://github.com/MJ-Jang/BECEL/tree/main
- https://github.com/mcdm/CommitmentBank
- https://huggingface.co/datasets/multi_nli
- https://paperswithcode.com/dataset/qnli
- https://paperswithcode.com/dataset/rte
- https://leaderboard.allenai.org/anli/submissions/get-started
- https://allenai.org/data/entailmentbank
- https://github.com/verypluming/MED
- https://github.com/AI-secure/adversarial-glue/tree/main
- https://github.com/facebookresearch/anli?tab=readme-ov-file
- https://super.gluebenchmark.com/
- https://github.com/swarnaHub/ConjNLI
- https://github.com/csitfun/ConTRoL-dataset
- https://github.com/verypluming/HELP
- https://github.com/HKUST-KnowComp/NLI4CT
- https://github.com/microsoft/TaxiNLI
- https://huggingface.co/datasets/SetFit/wnli
- https://github.com/howl-anderson/ATIS_dataset/tree/master
- https://github.com/sonos/nlu-benchmark
- https://www.microsoft.com/en-us/download/details.aspx?id=52398
- https://gluebenchmark.com/
- https://github.com/HLTCHKUST/Perplexity-FactChecking/tree/main
- https://github.com/chuchun8/PStance
- https://afshinrahimi.github.io/semeval2016-task6/
- https://github.com/cardiffnlp/tweeteval/tree/main/datasets/stance
- https://github.com/jkoppel/QuixBugs
- https://github.com/Kali-Hac/ChatGPT-MBTI
- https://jmir.org/api/download?alt_name=mededu_v9i1e45312_app1.xlsx&filename=3c2adca5ee88328073c589af108a5697.xlsx
- https://github.com/facebookarchive/bAbI-tasks/tree/master
- https://github.com/facebookresearch/clutrr
- https://github.com/Waste-Wood/e-CARE/
- https://github.com/SophonPlus/ChineseNlpCorpus
- https://github.com/kelvin-jiang/FreebaseQA
- https://hotpotqa.github.io/
- https://lc-quad.sda.tech/
- https://github.com/siatnlp/LegalQA
- https://github.com/lgw863/LogiQA-dataset
- https://github.com/CogComp/MCTACO
- https://github.com/UCSD-AI4H/Medical-Dialogue-System
- https://github.com/apple/ml-mkqa
- https://github.com/ianporada/modeling_event_plausibility
- https://github.com/ybisk/ybisk.github.io/tree/master/piqa
- https://whyu.me/reclor/
- https://github.com/davidgolub/SimpleQA/tree/master/datasets/SimpleQuestions
- https://github.com/HLR/SpartQA_generation
- https://github.com/ZhengxiangShi/StepGame
- https://github.com/google-research-datasets/TimeDial
- https://www.microsoft.com/en-us/download/details.aspx?id=52763
- https://github.com/brightmart/nlp_chinese_corpus
- https://aistudio.baidu.com/datasetdetail/38489
- https://facebookresearch.github.io/ELI5/
- https://tcci.ccf.org.cn/conference/2016/pages/page05_evadata.html
- https://allenai.org/data/open-book-qa
- https://allenai.org/data/qasc
- https://www.cs.cmu.edu/~glai1/data/race/
- https://allenai.org/data/socialiqa
- https://huggingface.co/datasets/squad_v2
- https://github.com/sylinrl/TruthfulQA
- https://www.microsoft.com/en-us/download/details.aspx?id=52419
- https://thukeg.gitee.io/kqa-pro/
- https://github.com/zhongwanjun/AR-LSAT
- https://huggingface.co/datasets/google/boolq
- https://github.com/allenai/contrast-sets/tree/main/BoolQ
- https://github.com/ALFA-group/BRON
- https://cve.mitre.org/
- https://allenai.org/data/complexwebquestions
- https://dblp.org/rdf/release/dblp-2022-06-01.nt.gz
- https://efficientqa.github.io/
- https://dki-lab.github.io/GrailQA/
- https://github.com/ysu1989/GraphQuestions
- https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- https://github.com/yongcaoplus/ProbingChatGPT
- https://github.com/AskNowQA/LC-QuAD2.0
- https://github.com/csitfun/LogiQA2.0
- https://zenodo.org/records/4617285#.YrNszNLMJhH
- https://ott-qa.github.io/
- https://github.com/iesl/protoqa-data
- https://github.com/ag-sc/QALD/tree/master
- https://github.com/sylinrl/TruthfulQA/tree/main
- https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family/tree/main/datasets/WQSP
- https://yago-knowledge.org/downloads/yago-4
- https://www.tau-nlp.sites.tau.ac.il/commonsenseqa
- https://rowanzellers.com/hellaswag/
- https://github.com/taylorwwebb/emergent_analogies_LLM/tree/main/letter_string
- https://allenai.org/data/arc
- https://huggingface.co/datasets/skrishna/coin_flip
- https://people.ict.usc.edu/~gordon/copa.html
- https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html
- https://nyu-mll.github.io/CoLA/
- https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/date_understanding/README.md
- https://github.com/RUCKBReasoning/CoT-KA
- https://github.com/qiangning/MATRES
- https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/object_counting/README.md
- https://allenai.org/data/strategyqa
- https://github.com/aakanksha19/TDDiscourse
- https://www.usna.edu/Users/cs/nchamber/caevo/
- https://adapterhub.ml/explore/sts/sts-b/
- https://github.com/cardiffnlp/tweeteval/tree/main/datasets/emoji
- https://github.com/MJ-Jang/BECEL/tree/main/data/mrpc
- https://lcl.uniroma1.it/wsdeval/
- https://pilehvar.github.io/wic/
- https://github.com/Moradnejad/ColBERT-Using-BERT-Sentence-Embedding-for-Humor-Detection/tree/master/Data
- https://www.kaggle.com/datasets/niraliivaghani/flipkart-product-customer-reviews-dataset
- https://www.cs.cornell.edu/people/pabo/movie-review-data/
- https://github.com/YJiangcm/SST-2-sentiment-analysis
- https://github.com/conversationai/unhealthy-conversations
- https://github.com/ewulczyn/wiki-detox/
- https://github.com/CLARIN-PL/chatgpt-evaluation-01-2023/
- https://github.com/google-research/google-research/tree/master/goemotions
- https://github.com/SALT-NLP/implicit-hate
- https://www.kaggle.com/datasets/rmsharks4/sarcasmania-dataset
- https://codalab.lisn.upsaclay.fr/competitions/7096#learn_the_details
- https://github.com/cardiffnlp/tweeteval/tree/main/datasets/sentiment
- https://github.com/allenai/real-toxicity-prompts
- https://adversarialglue.github.io/instructions/
- https://chalearnlap.cvc.uab.cat/dataset/24/description/
- https://github.com/allenai/contrast-sets/tree/main/IMDb
- https://clarin-pl.eu/dspace/handle/11321/710
- https://huggingface.co/datasets/sentiment140
- https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- https://huggingface.co/datasets/cnn_dailymail
- https://github.com/csebuetnlp/CrossSum
- https://github.com/ctr4si/MMN
- https://github.com/esdurmus/Wikilingua
- https://github.com/krystalan/ClidSum/tree/main#2-clidsum-benchmark-dataset
- https://github.com/honglizhan/CovidET
- https://github.com/ali-bahrainian/NEWTS
- https://github.com/armancohan/long-summarization/tree/master
- https://github.com/Yale-LILY/QMSum
- https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
- https://github.com/nyu-mll/SQuALITY
- https://paperswithcode.com/dataset/samsum-corpus
- https://github.com/inverse-scaling/prize
- https://huggingface.co/datasets/ml4pubmed/pubmed-classification-20k
- https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset
- https://www.kaggle.com/datasets/paultimothymooney/medical-speech-transcription-and-intent
- https://mtsamples.com/
- https://www.i2b2.org/NLP/Relations/
- https://paperswithcode.com/dataset/ace-2005
- https://github.com/ZihanWangKi/CrossWeigh
- https://huggingface.co/datasets/conll2003
- https://github.com/zhoujx4/DuEE
- https://github.com/zhoujx4/DuIE
- https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/MSRA
- https://github.com/truthless11/HRL-RE/tree/master/data/NYT11
- https://www.comp.nus.edu.sg/~nlp/conll14st.html
- https://github.com/microsoft/ContextualSP
- https://yale-lily.github.io/cosql
- https://taolusi.github.io/CSpider-explorer/
- https://github.com/luge-ai/luge-ai/tree/master/semantic-parsing
- https://github.com/salesforce/QGen/tree/main/Quiz_Design
- https://github.com/taoyds/sparc
- https://drive.usercontent.google.com/download?id=1TqleXec_OykOYFREKKtschzY29dUcVAQ&export=download&authuser=0
- https://github.com/ygan/SpiderSS-SpiderCG
- https://github.com/ygan/Spider-DK
- https://zenodo.org/record/5205322
- https://github.com/ygan/Spider-Syn
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://leak-llm.github.io/
- https://openai.com/blog/chatgpt
- https://openai.com/gpt-4
- https://blog.google/technology/ai/lamda/
- https://ai.google/discover/palm2/
- https://cohere.com/models/command
- https://claude.ai/
- https://hitz-zentroa.github.io/lm-contamination/
- https://scholar.google.com/
- https://www.semanticscholar.org/
- https://dblp.org/
- https://arxiv.org/
- https://aclanthology.org/
- https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance
- https://chat.openai.com/
- https://github.com/acheong08/ChatGPT
- https://github.com/rawandahmad698/PyChatGPT
- https://github.com/acheong08/ChatGPT-to-API
- https://openai.com/research/gpt-4
- https://huggingface.co/datasets
- https://www.kaggle.com/
- https://privacy.openai.com/policies
- https://arxiv.org/abs/2303.12528
- https://arxiv.org/abs/2303.12767
- https://doi.org/10.18653/v1/2023.acl-long.427
- https://arxiv.org/abs/2303.03186
- https://arxiv.org/abs/2307.11088
- https://www.sciencedirect.com/science/article/pii/S2666914523000568
- https://arxiv.org/abs/2307.15703
- https://arxiv.org/abs/2308.14508
- https://arxiv.org/abs/2306.04181
- https://arxiv.org/abs/2302.04023
- https://arxiv.org/abs/2212.10474
- https://arxiv.org/abs/2303.16421
- https://arxiv.org/abs/2303.09461
- https://arxiv.org/abs/2302.03494
- https://doi.org/10.18653/v1/2023.sicon-1.2
- https://arxiv.org/abs/2303.12712
- https://arxiv.org/abs/2307.02313
- https://arxiv.org/abs/2306.03024
- https://github.com/zeno-ml/zeno-build/tree/main/examples/chatbot/report
- https://arxiv.org/abs/2303.08014
- https://doi.org/10.18653/v1/2023.c3nlp-1.7
- https://arxiv.org/abs/2202.07646
- https://doi.org/10.18653/v1/2023.acl-long.313
- https://doi.org/10.18653/v1/2023.bionlp-1.8
- https://arxiv.org/abs/2307.03109
- https://arxiv.org/abs/2308.00304
- https://arxiv.org/abs/2307.09009
- https://arxiv.org/abs/2211.06869
- https://arxiv.org/abs/2303.00293
- https://arxiv.org/abs/2212.10522
- https://doi.org/10.18653/v1/2023.acl-long.870
- https://doi.org/10.2139/ssrn.4335905
- https://doi.org/10.18653/v1/2023.clinicalnlp-1.17
- https://doi.org/10.31234/osf.io/c3549
- https://doi.org/10.1021/acs.jchemed.3c00027
- https://arxiv.org/abs/2304.05906
- https://arxiv.org/abs/2302.13007
- https://arxiv.org/abs/2305.02182
- https://arxiv.org/abs/2305.13276
- https://arxiv.org/abs/2302.04752
- https://arxiv.org/abs/2304.06122
- https://arxiv.org/abs/2303.11436
- https://doi.org/10.18653/v1/2023.acl-long.626
- https://doi.org/10.18653/v1/2023.bea-1.30
- https://arxiv.org/abs/2305.12477
- https://arxiv.org/abs/2305.08391
- https://arxiv.org/abs/2304.01746
- https://aclanthology.org/2023.sigdial-1.20
- https://doi.org/10.18653/v1/2023.sicon-1.4
- https://arxiv.org/abs/2301.13867
- https://arxiv.org/abs/2305.07375
- https://arxiv.org/abs/2303.03836
- https://arxiv.org/abs/2304.02554
- https://arxiv.org/abs/2305.14627
- https://arxiv.org/abs/2304.02182
- https://doi.org/10.1177/05694345231169654
- https://doi.org/10.18653/v1/2023.semeval-1.298
- https://arxiv.org/abs/2306.09390
- https://arxiv.org/abs/2303.15056
- https://pubmed.ncbi.nlm.nih.gov/36753318/
- https://github.com/THU-KEG/EvaluationPapers4ChatGPT#evaluation-papers-for-chatgpt
- https://arxiv.org/abs/2308.08493
- https://doi.org/10.18653/v1/2023.dialdoc-1.11
- https://arxiv.org/abs/2303.15587
- https://doi.org/10.18653/v1/2023.starsem-1.4
- https://arxiv.org/abs/2301.07597
- https://doi.org/10.18653/v1/2020.acl-main.740
- https://aclanthology.org/2023.inlg-main.8
- https://doi.org/10.18653/v1/2023.wassa-1.19
- https://arxiv.org/abs/2303.05063
- https://arxiv.org/abs/2309.09150
- https://arxiv.org/abs/2303.14822
- https://doi.org/10.18653/v1/2023.acl-short.81
- https://arxiv.org/abs/2302.09210
- https://www.mdpi.com/1660-4601/20/4/3378
- https://arxiv.org/abs/2305.14020
- https://arxiv.org/abs/2308.00189
- https://doi.org/10.18653/v1/2023.acl-long.218
- https://arxiv.org/abs/2305.10276
- https://arxiv.org/abs/2303.10368
- https://arxiv.org/abs/2303.16416
- https://arxiv.org/abs/2302.07736
- https://arxiv.org/abs/2305.07004
- https://doi.org/10.18653/v1/2023.wassa-1.14
- https://arxiv.org/abs/2307.10236
- https://arxiv.org/abs/2305.08322
- https://aclanthology.org/2023.inlg-main.3
- https://doi.org/10.18653/v1/2023.bionlp-1.30
- https://arxiv.org/abs/2303.06273
- https://doi.org/10.18653/v1/2023.wassa-1.29
- https://arxiv.org/abs/2305.09645
- https://arxiv.org/abs/2301.08745
- https://arxiv.org/abs/2303.14310
- https://arxiv.org/abs/2304.03245
- https://doi.org/10.18653/v1/2023.bionlp-1.37
- https://arxiv.org/abs/2303.18027
- https://doi.org/10.18653/v1/2023.wassa-1.33
- https://arxiv.org/abs/2302.14520
- https://doi.org/
- https://doi.org/10.1016/j.inffus.2023.101861
- https://arxiv.org/abs/2305.10407
- https://arxiv.org/abs/2303.17276
- https://arxiv.org/abs/2301.12127
- https://arxiv.org/abs/2302.02083
- https://doi.org/10.18653/v1/2023.eacl-main.241
- https://doi.org/10.1371/journal.pdig.0000198
- https://arxiv.org/abs/2308.15118
- https://arxiv.org/abs/2305.00050
- https://arxiv.org/abs/2304.05613
- https://arxiv.org/abs/2305.18486
- https://arxiv.org/abs/2302.13795
- https://arxiv.org/abs/2309.06085
- https://arxiv.org/abs/2304.11633
- https://arxiv.org/abs/2308.09597
- https://arxiv.org/abs/2305.03111
- https://arxiv.org/abs/2305.11747
- https://arxiv.org/abs/2304.10619
- https://arxiv.org/abs/2305.13269
- https://arxiv.org/abs/2302.11520
- https://openreview.net/forum?id=iO4LZibEqW
- https://aclanthology.org/2023.finnlp-1.7
- https://arxiv.org/abs/2303.13547
- https://arxiv.org/abs/2304.14399
- https://arxiv.org/abs/2308.11224
- https://arxiv.org/abs/2304.03439
- https://arxiv.org/abs/2305.12147
- https://arxiv.org/abs/2305.01210
- https://doi.org/10.18653/v1/2023.findings-acl.229
- https://arxiv.org/abs/2303.16634
- https://arxiv.org/abs/2304.01852
- https://doi.org/10.18653/v1/2023.acl-short.138
- https://arxiv.org/abs/2303.11032
- https://doi.org/10.18653/v1/2023.bea-1.24
- https://doi.org/10.18653/v1/2023.bea-1.18
- https://arxiv.org/abs/2306.01169
- https://doi.org/10.18653/v1/2023.acl-long.324
- https://arxiv.org/abs/2303.13809
- https://doi.org/10.18653/v1/2023.wassa-1.54
- https://arxiv.org/abs/2303.15621
- https://arxiv.org/abs/2307.15780
- https://arxiv.org/abs/2303.09038
- https://arxiv.org/abs/2302.02094
- https://arxiv.org/abs/2303.08896
- https://arxiv.org/abs/2308.12488
- https://doi.org/10.1101/2023.04.20.23288859
- https://arxiv.org/abs/2303.01194
- https://arxiv.org/abs/2304.11490
- https://doi.org/10.18653/v1/2023.findings-acl.280
- https://doi.org/10.18653/v1/2023.repl4nlp-1.17
- https://aclanthology.org/2023.ccl-2.9
- https://doi.org/10.18653/v1/2023.wassa-1.61
- https://arxiv.org/abs/2303.13375
- https://doi.org/10.18653/v1/2023.findings-acl.396
- https://arxiv.org/abs/2302.06466
- https://doi.org/10.18653/v1/2023.bea-1.62
- https://arxiv.org/abs/2303.08774
- https://arxiv.org/abs/2302.06426
- https://aclanthology.org/2023.sigdial-1.23
- https://doi.org/10.18653/v1/2023.nlp4convai-1.2
- https://arxiv.org/abs/2304.04256
- https://arxiv.org/abs/2305.03423
- https://arxiv.org/abs/2304.01487
- https://arxiv.org/abs/2302.12813
- https://arxiv.org/abs/2304.03277
- https://arxiv.org/abs/2303.13780
- https://doi.org/10.18653/v1/2023.acl-short.37
- https://arxiv.org/abs/2308.11483
- https://doi.org/10.18653/v1/2023.latechclfl-1.2
- https://doi.org/10.18653/v1/2023.acl-srw.1
- https://arxiv.org/abs/2302.06476
- https://doi.org/10.18653/v1/2023.bea-1.58
- https://arxiv.org/abs/2302.03780
- https://arxiv.org/abs/2304.03325
- https://doi.org/10.1101/2023.02.21.23285886
- https://arxiv.org/abs/2303.01248
- https://doi.org/10.18653/v1/2023.findings-acl.529
- https://doi.org/10.18653/v1/2023.acl-demo.51
- https://arxiv.org/abs/2307.11019
- https://arxiv.org/abs/2306.11892
- https://arxiv.org/abs/2309.07423
- https://arxiv.org/abs/2304.07333
- https://hitz-zentroa.github.io/lm-contamination/blog/
- https://arxiv.org/abs/2210.13312
- https://aclanthology.org/2023.clasp-1.12
- https://arxiv.org/abs/2302.13814
- https://doi.org/10.18653/v1/2023.findings-acl.663
- https://arxiv.org/abs/2304.08979
- https://arxiv.org/abs/2305.03513
- https://openreview.net/forum?id=s7xWeJQACI
- https://arxiv.org/abs/2301.08653
- https://arxiv.org/abs/2303.13001
- https://arxiv.org/abs/2303.17650
- https://doi.org/10.18653/v1/2023.americasnlp-1.17
- https://arxiv.org/abs/2307.07697
- https://arxiv.org/abs/2304.09542
- https://arxiv.org/abs/2307.06464
- https://doi.org/10.18653/v1/2023.acl-long.828
- https://arxiv.org/abs/2303.07992
- https://doi.org/10.18653/v1/2023.semeval-1.277
- https://doi.org/10.18653/v1/2023.acl-long.650
- https://arxiv.org/abs/2303.04360
- https://arxiv.org/abs/2301.13819
- https://arxiv.org/abs/2304.14106
- https://doi.org/10.18653/v1/2023.wassa-1.23
- https://doi.org/10.18653/v1/2023.wassa-1.58
- https://arxiv.org/abs/2306.17582
- https://arxiv.org/abs/2305.13160
- https://arxiv.org/abs/2306.11698
- https://arxiv.org/abs/2303.04048
- https://arxiv.org/abs/2302.14229
- https://arxiv.org/abs/2302.12095
- https://doi.org/10.18653/v1/2023.clinicalnlp-1.49
- https://doi.org/10.18653/v1/2023.bea-1.53
- https://arxiv.org/abs/2302.07257
- https://arxiv.org/abs/2307.10635
- https://arxiv.org/abs/2309.10691
- https://arxiv.org/abs/2308.05342
- https://arxiv.org/abs/2304.04339
- https://arxiv.org/abs/2302.10205
- https://arxiv.org/abs/2303.07839
- https://arxiv.org/abs/2303.13648
- https://doi.org/10.18653/v1/2023.acl-long.403
- https://doi.org/10.18653/v1/2023.acl-long.173
- https://doi.org/10.18653/v1/2023.bea-1.52
- https://arxiv.org/abs/2305.13300
- https://arxiv.org/abs/2304.05351
- https://arxiv.org/abs/2306.09841
- https://arxiv.org/abs/2307.15020
- https://doi.org/10.18653/v1/2023.findings-acl.513
- https://arxiv.org/abs/2304.13712
- https://arxiv.org/abs/2307.05779
- https://arxiv.org/abs/2302.08081
- https://arxiv.org/abs/2303.11381
- https://arxiv.org/abs/2305.10601
- https://arxiv.org/abs/2303.10420
- https://arxiv.org/abs/2304.05454
- https://arxiv.org/abs/2304.02015
- https://arxiv.org/abs/2212.14548
- https://arxiv.org/abs/2304.03087
- https://arxiv.org/abs/2304.04193
- https://arxiv.org/abs/2307.10172
- https://arxiv.org/abs/2306.10968
- https://arxiv.org/abs/2305.15005
- https://arxiv.org/abs/2301.03462
- https://arxiv.org/abs/2304.09582
- https://doi.org/10.18653/v1/2023.semeval-1.221
- https://doi.org/10.18653/v1/2023.acl-long.869
- https://arxiv.org/abs/2309.03882
- https://arxiv.org/abs/2304.10513
- https://aclanthology.org/2023.cs4oa-1.5
- https://arxiv.org/abs/2307.02157
- https://arxiv.org/abs/2302.10198
- https://arxiv.org/abs/2304.11107
- https://arxiv.org/abs/2305.13304
- https://arxiv.org/abs/2304.10145
- https://arxiv.org/abs/2301.12867