Шрифт:
Интервал:
Закладка:
2182
Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy, RACE: Large-scale ReAding Comprehension Dataset From Examinations // https://www.aclweb.org/anthology/D17-1082.pdf
2183
Soricut R., Lan Z. (2019). ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations / Google AI Blog, Friday, December 20, 2019 // https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html
2184
Wang A., Singh A., Michael J., Hill F., Levy O., Bowman S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding // https://openreview.net/forum?id=rJ4km2R5t7
2185
Wang A., Pruksachatkun Y., Nangia N., Singh A., Michael J., Hill F., Levy O., Bowman S. R. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems // https://arxiv.org/abs/1905.00537
2186
Clark C., Lee K., Chang M.-W., Kwiatkowski T., Collins M., Toutanova K. (2019). BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions // https://arxiv.org/abs/1905.10044
2187
de Marneffe M.-C., Simons M., Tonhauser J. (2019). The CommitmentBank: Investigating projection in naturally occurring discourse / Proceedings of Sinn und Bedeutung, Vol. 23 // https://semanticsarchive.net/Archive/Tg3ZGI2M/Marneffe.pdf
2188
Roemmele M., Bejan C. A., Gordon A. S. (2011). Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning / AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21—23, 2011 // https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF
2189
Khashabi D., Chaturvedi S., Roth M., Upadhyay S., Roth D. (2018). Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences / Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL) // https://cogcomp.seas.upenn.edu/page/publication_view/833
2190
Zhang S., Liu X., Liu J., Gao J., Duh K., Durme B. V. (2018). ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension // https://arxiv.org/abs/1810.12885
2191
Dagan I., Glickman O., Magnini B. (2006). The PASCAL recognising textual entailment challenge / Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Textual Entailment. Springer, 2006 // link.springer.com/chapter/10.1007/11736790_9
2192
Haim R. B., Dagan I., Dolan B., Ferro L., Giampiccolo D., Magnini B., Szpektor I. (2006) / The second PASCAL recognising textual entailment challenge / Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, 2006 // http://u.cs.biu.ac.il/~nlp/RTE2/Proceedings/01.pdf
2193
Giampiccolo D., Magnini B., Dagan I., Dolan B. (2007). The third PASCAL recognizing textual entailment challenge / Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. Association for Computational Linguistics, 2007 // https://www.aclweb.org/anthology/W07-1401/
2194
Bentivogli L., Dagan I., Dang H. T., Giampiccolo D., Magnini B. (2009). The fifth PASCAL recognizing textual entailment challenge / Textual Analysis Conference (TAC), 2009 // http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.232.1231
2195
* Анафора (от греч. ἀναφέρειν — относить назад, возвращать, возводить к чему-либо) — зависимость интерпретации выражения от другого (обычно предшествующего) выражения в тексте.
2196
Rudinger R., Naradowsky J., Leonard B., Durme B. V. (2018). Gender Bias in Coreference Resolution // https://arxiv.org/abs/1804.09301
2197
* Здесь мы сознательно не углубляемся в вопрос, какие именно люди включаются в контрольную группу для оценки способности человека решать те или иные задачи, связанные с пониманием естественного языка (да и вообще любые другие интеллектуальные задачи в ситуациях, когда мы хотим сравнить способности машин и людей). Очевидно, что в идеале состав контрольной группы должен быть достаточно репрезентативным: включать в себя людей с разным уровнем образования, с разными профессиями, принадлежащих к разным социальным группам и культурным общностям. На практике, конечно, формируемые исследователями контрольные группы весьма далеки от идеала. Анализу этой проблемы посвящена весьма поучительная работа исследователей из Гарвардского университета под красноречивым названием «Какие люди?» [Which humans?].
2198
Atari M., Xue M. J., Park P. S., Blasi D., Henrich J. (2023). Which humans? // https://doi.org/10.31234/osf.io/5b26t
2199
He P., Liu X., Gao J., Chen W. (2021). DeBERTa: Decoding-enhanced BERT with Disentangled Attention // https://paperswithcode.com/paper/deberta-decoding-enhanced-bert-with
2200
Sun Y., Wang S., Feng S., Ding S., Pang C., Shang J., Liu J., Chen X., Zhao Y., Lu Y., Liu W., Wu Z., Gong W., Liang J., Shang Z., Sun P., Liu W., Ouyang X., Yu D., Tian H., Wu H., Wang H. (2021). ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation // https://arxiv.org/abs/2107.02137
2201
SuperGLUE leaderboard, Retreived 2022-01-31 // https://super.gluebenchmark.com/leaderboard/
2202
Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. (2020). RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2010.15925
2203
Шаврина Т. (2020). Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей / Хабр, 10 июня // https://habr.com/ru/company/sberbank/blog/506058/
2204
Shavrina T., Shapovalova O. (2017). To the methodology of corpus construction for machine learning: «TAIGA» syntax tree corpus and parser / Proceedings of CORPORA2017 international conference, Saint-Petersbourg, 2017 // https://publications.hse.ru/en/chapters/228708483
2205
Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2018). RUSSE: The First Workshop on Russian Semantic Similarity / Proceeding of the International Conference on Computational Linguistics DIALOGUE 2015, pp. 89—105 // https://arxiv.org/abs/1803.05820
2206
Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. (2018). RUSSE’2018: a Shared Task on Word Sense Induction for the Russian Language / https://arxiv.org/abs/1803.05795
2207
RussianSuperGLUE leaderboard, Retreived 2022-01-31 // https://russiansuperglue.com/leaderboard/2
2208
Le H., Vial L., Frej J., Segonne V., Coavoux M.,