Вопрос:

Какие из этих утверждений могут быть верными, если посчитать словоформы в некотором корпусе С?

Смотреть решения всех заданий с листа

Ответ:

Анализ утверждений:

В корпусных исследованиях количество типов слов (лексем) обычно значительно меньше, чем количество токенов (словоупотреблений). Это связано с тем, что одна и та же лексема может встречаться многократно в разных формах.

  • 1. В корпусе С 1592 типа слов и 1308 токенов. - Неверно. Количество токенов должно быть больше количества типов слов.
  • 2. В корпусе С 376 889 типов слов и 3 768 890 токенов. - Верно. Это соотношение (примерно 1:10) является типичным для корпусов естественного языка, где токенов значительно больше, чем типов.
  • 3. В корпусе С 21340 типов слов и 456792 токена. - Верно. Это также реалистичное соотношение, где токенов больше, чем типов.
  • 4. В корпусе С 556 типов слов и 456792 токена. - Неверно. При таком большом количестве токенов количество типов слов должно быть значительно выше.
  • 5. В корпусе С 10576 типов слов и 10576 токенов. - Неверно. Это означало бы, что каждое слово встречается ровно один раз, что крайне маловероятно для корпуса.
  • 6. В корпусе С 376 889 типов слов и 123 455 токенов. - Неверно. Количество типов слов не может быть больше количества токенов.

Ответ: Утверждения 2 и 3 могут быть верными.

ГДЗ по фото 📸
Подать жалобу Правообладателю