[ /b/ /u/ /rf/ /dt/ /vg/ /r/ /cr/ /lor/ /mu/ /oe/ /s/ /w/ /hr/ ] [ /a/ /ma/ /sw/ /hau/ /azu/ ] [ /tv/ /cp/ /gf/ /bo/ /di/ /vn/ /ve/ /wh/ /fur/ /to/ /bg/ /wn/ /slow/ /mad/ ] [ /d/ /news/ ] [ Главная | Настройки | Закладки | Плеер ]

No.5954
Файл: report.tgz
Archive, 20.57 KB, 1 файлов - Нажмите на картинку, чтобы скачать файл
view
report.tgz
Введение
За прошедшие годы сообществом анонимных лингвистов неоднокрано высказывались различные теории о "упрощении" языка в различных "быдло"-сообществах, а также о их влиянии на культуру АИБ.
В частности в недавней дискуссии доцент Граммарнацевич [1] выдвинул в качестве критения примитивности объем активно используемого лексикона.
Отмечая недостаточный уровень изученности данной проблематики и отсутствие исследований с достаточной материальной базой, наш коллектив решил провести собственное исследование в данной области, поставив перед собой следующие задачи:
1. Построить корпус диалектов, применяемых на чанах и ряде не-анонимных ресурсов.
2. Построить частотный словарь для каждого корпуса, оценить объем активного лексикона.
3. Оценить корреляцию каждого из диалектов ряду эталонных частотных словарей русского языка.
4. Провести сравнительный анализ попарно каждого из диалектов.
5. Исследовать изменения в чановой лексике за последние 3 года.
6. Исследовать частотность отдельных лексем в разных диалектах.
>> No.5955
В качестве исследуемых экземпляров было принято взять следующие ресурсы:
1. Доброчан.ру
2. Иичан.ру
3. Вакачан.орг/уныл/
4. Автобус
5. Луркмор, страницы обсуждения (так как нас интересует лексикон обитателей в их "естественном" общении)
6. Тиреч
7. Нульчан
В качестве представителей "быдло"-ресурсов:
8. Баш.орг.ру, все аппрувленные цитаты
9. Анимефорум.ру, темы из раздела "общение", и по несколько тем из других разделов.
10. Удафф.ком, тексты и комментарии из "нетленки".
Для сравнительного анализа по времени:
11. Двач образца 2006 года
12. Двач образца 2007 года (представлен в двух версиях, оригинал и с удаленными вайп-постами)
13. Двач образца 2008 года

В качестве эталонов частотных словарей были взяты:
1. Список Сводеша для русского языка [2]
2. Первую тысячу слов из частотного словаря русского языка Штейнфельдт [3]
3. Первые 250 слов из частотного словаря Ру-вики [4]
4. Первые 1000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-1000) [5]
5. Первые 5000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-5000) [5]
>> No.5956
Для каждого ресурса был сформирован текстовый дамп (raw.txt).
Из текстового дампа были извлечены все кириллические слова (words.txt).
Каждому слову была сопоставлена лексема и записана лемма (lexems.txt).
Была подсчитана частота каждой леммы и составлен словарь частотности (freq.txt). В словаре мы указали как абсолютную частоту, так и относительную, в количестве на сто. Количество на миллион можно получить домножением на 10000.
Было рассчитано минимальное количество лексем для покрытия определенного количества текста (coverage.txt).
Для попарных корреляций брались первые н слов из каждого списка и рассчитывался процент совпадения этих двух множеств.
Особенности:
Для исследования Двача-2006 были использованы все сохранившиеся треды, но общая мощность ставит объективность результатов для этого периода под сомнение.
Для исследования Двача-2007 из-за сильных искажений, вносимых массовыми вайпами того периода, была рассчитана версия без таких вайп-постов.
Для исследования Луркмора из страниц обсуждения были вырезаны слова "Участник" и "января"-"декабря", так как они проставлялись автоматическими подписями.
>> No.5957
Файл: tab1.summary.png
Png, 42.92 KB, 1372×256 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
tab1.summary.png
Объем каждого корпуса указан в таблице 1.
Вопреки теорям многих анонимных лингвистов, и согласно нашей теории о взаимоотношении правил деривации с количеством производных лексем, объем активного лексикона представителей ресурсов второй группы (анимефорум, башорг, удафф) оказался больше, чем соответствующий объем представителей АИБ.
Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Данная тенденция сохраняется и для 75% текста, и для 90% текста, с превышением объема активного лексикона удаффкома над чановым в 2 раза.
Сопоставление частотных словарей эталонным показало достаточно стабильные результаты как для чановых диалектов, так и для диалектов второй группы. В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
При этом наиболее высокую "чистоту" показали доброчан, иичан и, как ни странно, анимефорум.
Наименьший объем лексикона во всех представленных диалектах показали вайперы образца 2007 года. Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха". Лидирование "десу" в этой гонке оказалось для нас достаточно неожиданным.
>> No.5958
Файл: tab2.correlation_...
Png, 36.93 KB, 1366×273
edit Find source with google Find source with iqdb
tab2.correlation_150.png
Файл: tab3.correlation_...
Png, 39.73 KB, 1341×273
edit Find source with google Find source with iqdb
tab3.correlation_1000.png
Файл: tab4.correlation_...
Png, 41.19 KB, 1352×273
edit Find source with google Find source with iqdb
tab4.correlation_5000.png

Результаты попарной корреляции опять же вполне соответствуют нашей теории. Сами данные можно найти в таблицах 2, 3 и 4.
При этом хотелось бы отметить ряд интересных моментов.
Из всех рассмотренных пар пара доброчан-иичан во всех трех случаях показала наибольший результат. Тем удивительней взаимная неприязнь между аудиториями данных ресурсов.
Как для доброчана, так и для иичана, анимефорум ближе, чем остальные чаны. Возможно Сырно все же не права в своей неприязни к анимефоруму.
Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Двач-2007 показал низкую корреляцию со всеми остальными представленными ресурсами, оказавшись наиболее похожим на Двач-2008, Тиреч и Нульч.
Двач-2006 оказался менее всего похож на Двач-2007/8, и наиболее похож на доброчан и иичан.
Двач-2008 оказался наиболее похож на тиреч, доброчан и иичан, что позволяет нам судить о распределении беженцев с погибшего.
Ресурсы второй группы показали общую попарную корреляцию выше, чем корреляцию с чановыми ресурсами.
>> No.5959
Файл: tab5.words.png
Png, 44.40 KB, 1487×273 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
tab5.words.png
Результаты представлены в таблице 5.
Так как на иичане часть слов находится в вордфильтре [6], она не рассматривалась.
Прежде всего хотелось бы отметить, что на дваче 2006 слово "имиджборда" не встречается, зато есть упоминания слова "имажборда", что опровергает теорию о том, что первый вариант написания появился раньше и является основным.
Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.
Слово "двач" встречается на тирече в полтора раза реже, чем на Дваче-2007, Дваче-2008 и нульчане. Частота на последних трех примерно равная.
Больше всего обеспокоены тортовостью на нульче и вакачане.
На анимефоруме нет ньюфагов, но есть 1.5 олдфага на миллион.
"Быдло" есть везде.
На Дваче-2006 не было ни рака, ни школьников, ни ньюфагов, ни олдфагов, и было в 5 раз меньше троллей.
Частота употребления слов "ньюфаг"/"олдфаг" на нульчане зашкаливает и превышает средние показатели в 7 раз.
В 2007м на дваче "ньюфаг" употреблялось в 10 раз реже, а "олдфаг" в 100 раз реже, чем в 2008м.
Частота употребления слова "тролль" на доброчане непростительно высока. Всем срочно рекомендуется подумать над своим поведением.
"Рака" на тирече в два раза больше, чем на нульчане, и в 4 раза больше, чем на дваче-2008, дваче-2007 и доброчане.
Интерес к мемам в целом заметно упал по сравнению с 2008. Больше всего к ним проявляют интереса, как и ожидалось, луркморцы.
>> No.5960
Файл: 2ch07.tar.bz2
Archive, 24269.75 KB, 5 файлов
view
2ch07.tar.bz2
Файл: 2ch07corr.tar.bz2
Archive, 23837.05 KB, 5 файлов
view
2ch07corr.tar.bz2
Файл: 2ch08.tar.bz2
Archive, 12412.88 KB, 5 файлов
view
2ch08.tar.bz2
Файл: udaff.tgz
Archive, 8109.54 KB, 5 файлов
view
udaff.tgz
Файл: animeforum.tgz
Archive, 7868.59 KB, 5 файлов
view
animeforum.tgz
Файл: bashorgru.tgz
Archive, 7841.17 KB, 5 файлов
view
bashorgru.tgz
Файл: dashchan.tgz
Archive, 9155.72 KB, 5 файлов
view
dashchan.tgz
Файл: iichan.tgz
Archive, 7807.12 KB, 5 файлов
view
iichan.tgz
Файл: dobrochan.tgz
Archive, 8520.51 KB, 5 файлов
view
dobrochan.tgz
Файл: wakachan.tgz
Archive, 1516.40 KB, 5 файлов
view
wakachan.tgz
Файл: 410chan.tgz
Archive, 831.62 KB, 5 файлов
view
410chan.tgz
Файл: 2ch06.tgz
Archive, 174.12 KB, 5 файлов
view
2ch06.tgz
Файл: lurkmore.tar.bz2
Archive, 20803.23 KB, 5 файлов
view
lurkmore.tar.bz2
Файл: 0chan.tar.bz2
Archive, 2046.70 KB, 5 файлов
view
0chan.tar.bz2

>> No.5961
Будем рады ответить на ваши вопросы, господа.
>> No.5962
>>5961
в каком программе открывать файл из архива в оп-посте?
>> No.5963
>>5962
Это OO.o calc таблица.
>> No.5965
>>5961
> Будем рады ответить на ваши вопросы, господа.
> наш коллектив решил провести собственное исследование ...
Наш коллектив это кто? Можно подробнее?
>> No.5966
>>5965
Анонимусы Университета.
>> No.5967
Файл: robert-deniro---taxi-driver-photograph-c101033101246640326.jpg
Jpg, 28.02 KB, 385×476 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
robert-deniro---taxi-driver-photograph-c101033101246640326.jpg
молодец, держи Шайкевича
>> No.5968
Файл: 3.jpg
Jpg, 15.41 KB, 240×300 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
3.jpg
>>5967
черт, не то кликнул
>> No.5971
какое-то говно. и что теперь?
>> No.5972
Файл: 2a995e6159f8666805391b22901c79c9.gif
Gif, 26.17 KB, 500×600 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
2a995e6159f8666805391b22901c79c9.gif
Ух ты, спасибо вам, аноны, такую замечательную работу провели же. Это же просто какой-то гигантский кусок руды для бесконечного извлечения лулзов. Я думал, намного хуже будет это все.
>> No.5973
Файл: c71f319713415c27e5db5c50d05c4ad0.jpg
Jpg, 52.79 KB, 660×710 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
c71f319713415c27e5db5c50d05c4ad0.jpg
схоронил поглубже тред :3
>> No.5974
Молодцы, ребята.
>> No.5975
>>5954
Восхитительно. Нет, серьёзно, это более чем интересно. Я два года хотел такое исследование. Давно уже перестал надеяться, что Анонимус способен на какую-нибудь мало-мальски серьёзную работу. Спасибо.
До архивов пока, конечно, основательно не добрался, но вопросы есть уже сейчас: как я понял, одним из выходных параметров оценки примитивности служило разнообразие лексем в верхушке частотного распределения -
> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Вывод о том, что разнообразие характерных лексем чановских диалектов меньше, вполне понятен. Но что будет, если обрезать эту верхушку и оценить разнообразие на неспецифическом словаре "чистых" слов русского языка? Да, я прочитал, что
> В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
но насколько хорошо совпадают форм-факторы распределений?
>> No.5976
Отличное исследование. Оно проливает свет на многие неясности и разночтения в истории. Большое спасибо, Профессор!
>> No.5977
Мне не хватает сравнения Доброчанов образцов 2008 с 2009.
>> No.5978
>>5977
На доброчане-2008 слишком мало сообщений для полноценного анализа. Впрочем, посмотрим потом, когда будем делать повторный анализ месяцев через 6, дабы отследить динамику.
>> No.5979
Файл: 1260374235136.jpg
Jpg, 70.39 KB, 631×683 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
1260374235136.jpg
Молодцы, ребята. Сохранил архивы, пишу вот пару скриптов для изучения. Еще раз спасибо, даже гордо стало за наших анонимусов.
>> No.5980
Статист-куны, нет у кого-нибудь желания посчитать дисперсию и среднеквадратичное отклонение между списками? Простой процент совпадения не очень точный.
>> No.5982
Слушайте, робяты.
Во-первых, молодцы.
Во-вторых, есть небольшие подозрения насчёт результатов старых дващей(некачественная выборка), а также вопрос по поводу количества элементов выборки - я думаю, с ней надо поработать тщательней.
>> No.5983
>>5982
> насчёт результатов старых дващей(некачественная выборка)
Про 2006й там об этом написано, сколько есть данных, столько и взяли. Больше, к сожалению, не сохранилось.
2007й взят почти целиком, кроме декабря (у нас его нет).
2008й взят равномерно по всему году, из всего, что сохранилось.
>> No.5984
>>5983
Учитывая склонность к словообразованию на новоявленных старых дващах, высокий процент уникальности, боюсь, вызван канувшими в лету фейлофорсенными словами, благо к 2007му стандартный лексикон более-менее стабилизировался. Это, конечно, частное-мнение-очевидца.
Полагаю, следует исключить дващ06 из набора.
Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).
Алсо, в разные разделы одной и той же борды тоже могут различаться.
Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.
>> No.5985
Профессора просто молодцы!
анон нульча
>> No.5986
Файл: 1245015123070.jpg
Jpg, 17.17 KB, 300×300
Ваши настройки цензуры запрещают этот файл.
unrated
>>5984
> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
> Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).
Угу, как-то нехорошо, что на Двач06 такое маленькое количество слов же. Это моё мнение, как куна который когда-то учился на инженера.
> Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.
Таки да!

Ещё мне лично было бы крайне интересно ознакомиться с частотностью большего количества слов, и то что на ычане вордфильтр стоит это уже проблема ычана, а не наши.

Или например сравнить изменение количества "ло" в слове "ололо" и всё такое. Я бы и сам попробовал но к сожалению я никогда в жизни таким исследованием не занимался и боюсь пропустить что то важное по неопытности же, а товарищи ОПы умницы - я о таком треде не один месяц мечтал! Профессор Добранонов - мой бог :3
>> No.5988
Вопрос - почему был утаен архив двача за 2006 и 2007 годы до это времени? Также /r/ версию с html-разметкой.
>> No.5989
Файл: tables-with-style-after.png
Png, 91.00 KB, 408×400 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
tables-with-style-after.png
Да, выделяйте в следующий раз строки разными цветами, а то легко потерять ведь нужную строку с таким количеством колонок...

Пикрилейтед.
>> No.5991
>>5988
Архив эпичных тредов двача 2007 некоторое время висел онлайн, некоторые кусочки двача 2006 тоже, плюс до сих пор можно посмотреть несколько страниц через web.archive.org

Например:
http://web.archive.org/web/20060430013222/http://2ch.ru/b/
http://web.archive.org/web/20060503155355/2ch.ru/d/
http://web.archive.org/web/20060503155526/2ch.ru/dg/

Там кстати полно лулзов ололол.
>> No.5993
Исследование - говно. Статистические исследования, да будет вам известно, проводятся так: выдвигается некоторая гипотеза, для неё противоречащая ей нулевая гипотеза, она опровергается статистическим тестом с какой-то достоверностью, из чего делается вывод о верности исходной посылки.
Материалы по теме: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing

Резюме: Работу принимать к публикации не рекомендую до устранения указанных выше существенных недостатков.
>> No.5997
Файл: 2426314_f16052a.jpg
Jpg, 47.44 KB, 340×482 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
2426314_f16052a.jpg
>>5993
0/10

Статлингвистика рулит, а ты хуй :3

Олсо, твой пост тоже тупой!
>> No.5998
>>5997
В твоём исследовании статистики нет вообще.
>> No.5999
>>5998
> "исследовании"
самопочин
>> No.6000
>>5998
1. исследование не моё, я даже не оп
2. Да иди ты нахуй, оп няшечка же!
>> No.6001
А у кого-то сохранились архивы Двача 2006-2007 годов, но с картинками?
>> No.6003
Файл: 125206531921996.jpg
Jpg, 4.71 KB, 200×150
Ваши настройки цензуры запрещают этот файл.
unrated
>>6001
> Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.
Вы говорите так, как будто это что-то хорошее
>> No.6004
>>6001
А у кого они есть хотя бы без картинок? Только полные, а не фрагменты, как на webarchive.
>> No.6005
>>6004

В >>5960 ссылка на файл, содержащий полные (насколько могу судить) архивы, пусть и в малочитаемом виде.
>> No.6007
>>6005
Действительно, только однозначно восстановить треды по такому дампу не представляется возможным => не подходит, увы.
>> No.6008
>>6007
Ну там хоть что-то есть, вспомнил и перечитал один свой тред из 2007 года, когда я был ньюфагом.
>> No.6010
Бессмысленное исследование. Было бы больше толку, если бы оп сделал график изменения скорости и посещаемости аиб, лурки, баша итд во времени с описании таких или иных крупных событий(причем не забывая о популярности некоторых мемов). Алсо форчан бы в графике не помешал.
>> No.6011
>>5984
> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
По этому вопросу есть разные мнения. В начале делали равные выборки, по 700000, так как на башорге больше нет, но потом решили, что тот-же двач разумней исследовать целиком, все равно ведь сравниваем частоту, а не абсолютные количества.
Для разных по скорости чанов равные объемы будут означать совершенно разные периоды. Возможно объективней таки рассматривать, скажем, по 1 последнему году каждого чана, чем по последним х словам.
> одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками
Угу, правда опять же, вопрос в объеме, на многих тематиках постов слишком мало.
>>5988
Он не утаен, он не доступен в онлайне по техническим причинам.
>>5993
А где ты в теме нашел слова "статистическое исследование"? Там же ясно написаны задачи и методы, это корпусная лингвистика, а не статистика.
>>6001
Картинки у нас тоже есть. Когда-нибудь опубликуем, там 500000 файлов и с ними надо разбираться.
>> No.6012
http://iichan.ru/sci/res/10219.html - ОП, а что ты думаешь об этом?
>> No.6013
>>6012
Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля.
Если и пилить издание, то межчановое.
>> No.6014
>>6012
Я не ОП, но я подумал следующее: "О, меня на ычане разбанили!"
>> No.6015
>>6013
Тогда уж хотя бы общерунетовское
>> No.6016
>>6015
Для не-анонимусов и так существует дохрена и больше научных изданий.
>> No.6017
>>6011
Надеюсь, вы опубликуете полные архивы Двача поскорее. Выложите их на отдельном сайте с поиском и анонсируете на всех известных АИБ.
>> No.6018
>>6017
Так уже выкладывали же, с поиском и прочими хренями. У нас просто софт под него сейчас сильно устаревший, переписывать все надо.
>> No.6019
>>6018
оно сохранилось где-то? можно ссылочку?
>> No.6022
>>6018
Куку~ц?
>> No.6023
>>6019
Люто-бешено удваиваю запрос. Большим и жирным архивом голые html-ки тредов(или в каком формате они у вас хранятся?), без какого-либо поиска, можно и без картинок.
>> No.6025
этому треду не хватает звукового сопровождения
http://rghost.ru/700725
>> No.6027
А почему про Шитстрим ничего не написали?
>> No.6030
>>6018
А, 2.0ч я хорошо помню. И буду очень вам благодарен, если он заработает опять.
>> No.6069
Тред - луч света на этой доске.
Большинство файлов в архиве имеют неизвестный мне формат, но даже без этого выглядит впечатляюще.
В свою очередь хотел бы попросить простым языком изложить теорию, которая взята на проверку и дать определения специальным терминам таким как Лексема.
Прошу это я с учетом того, что большинство читателей не знакомо с тематикой и специфичными терминами. Дать список определений вначале или в конце текста намного удобнее, чем каждого по отдельности искать определения.
>> No.6070
>>6069
> Большинство файлов в архиве имеют неизвестный мне формат
Там текстовые файлы же.
>> No.6071
> определения специальным терминам таким как Лексема
Да-да, не мешало бы. Алсо посмотрев исходник старого 2ча хочется задать вопрос: можно ли применять методы исследования текстов к собственно содержимому АИБ т.е. 1. анонимной 2.картинко- 3.доски
>> No.6072
>>6071
> можно ли применять методы исследования текстов к собственно содержимому АИБ
А почему, собственно, нет? Сопоставляются лексические компоненты каждой доски. Да, конечно, какая-то прагматика при этом теряется, но это все равно не семантический анализ, это частотный анализ.
>> No.6073
>>6072
Ну хотя-бы потому, что часть текста написана на картинках
> это все равно не семантический анализ, это частотный анализ.
точность такого анализа вызывает сомнения, тащемта она явно не 0,01 процента
И расскажите больше про методы анализа же, можно с примерами
>> No.6076
Порадовало. Есть пара вопросов:
1.
> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Башорг за какой отчетный период рассматривался?
2. Для каждого чана действительно не помешал бы список досок, на которых собиралась статистика.
>> No.6082
>>6076
> Башорг за какой отчетный период рассматривался?
За весь. Все аппрувленные цитаты, от первой до последней. Там и так в результате всего 700000 слов набралось, по периодам будет не показательно (разве что бездну дампать).
> список досок
Со всех только /b/ же.
>> No.6114
>>6013
> Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля.
> Если и пилить издание, то межчановое.
Конечно же межчановое. Ссылка на Ичан просто потому что там уже все написано, чтобы не копипастить и не плодить треды.
>> No.6198
Бамп эпичнейшему треду
>> No.6231
Мда, занимательная мулька, но я так и не понял четкой цели исследования. Кто умнее, кто тупее? Здесь одной статистической лингвистикой не обойтись. Ну да ладно, у меня баттхерт. Два небольших замечания, которые чистая статистика объяснить не может.
> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком
На удаффе такой завышенный показатель связан с художественностью текстов, особенно нетленки. Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?
> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Нифига не опровергло. Я бы не стал делать такие выводы, основываясь на лингвистической статистике. Теория доказана практикой и фактами. (на собственной шкуре, и в тредах о том, кто как попал на двач). А нестыковка заключается в том, что неофиты с баша быстро переключаются на скупую, но емкую терминологию двачей. Более того, проходит инкубационный период, в течении которого личинка двачера окукливается на лурке, впитывая в себя новые знания, а вместе с ними и новый язык. Лурк по своей доставляемости заменяет баш, а его потом заменяют имиджборды. Посещение баша, как поведенческий рудимент, отсыхает сам спустя приблизительно месяц-два.
И по традиции, видимо, сей борды всем добра, вы все классные, проффесор вы мой новый идол и кумир, чмаффки вас всех, лаффки :3333 <33333 Действиельно впечатляющая работа, но "комментарии" разочаровали. Я серьезно. Все пакусики!! цалую всех в щечку, чмафф ^^
>> No.6233
>>6231
> Кто умнее, кто тупее?
Нет, конечно. Я вообще не сторонник мнения, что население АИБ чем-то лучше остального интернета. Закомплексованней, да. Не более.
На чанах постоянно выдвигают теории о том, какой бедный язык у всех этих "башорков". Я попытался проверить эту теорию научными методами. Результаты опубликовал. Ну а в дополнение, раз уж на руках все равно были частотные списки и корпусы, посчитал всякие корреляции.
> Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?
"Ебаться" "Ипаццо" "Ибатся" три разные лексемы. Там, где прослеживается инфлекция, одна лексема.
>> No.6271
> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Слово "подонок" на удаффкоме может быть представлено в виде "падонак", "падонок", "падоног" и т.д. Не говоря уже об уравни граматнасти носиления (на любом ресурсе). По сути дела, это статистика вариантов написания слов, а не словарного запаса.
>> No.6272
>>6271
Я же там указал причину, побудившую проводить исследования.
Собственно в том треде я и доказывал, что при более свободных правилах деривации у нас будет больше лексем в основном лексиконе, в том числе за счет синонимов, образованных деривацией в виде искажения.
> а не словарного запаса
А что такое по-твоему "словарный запас"?
>> No.6273
> А что такое по-твоему "словарный запас"?
Запас используемых слов. Очевидно, что "подонак" и "падонок" - это одно и то же слово.
>> No.6274
>>6273
Кому очевидно?
"Слово" это вообще форма. "Падонак" "Падонка" и все остальные инфлекции лексемы "падонак" - это разные слова.
"Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации.
>> No.6282
Извиняюсь, если неправильно употребляю термины. А "дабрачан" (неграмотное написание) прибавляет +1 к словарному запасу?
>> No.6284
>>6282
Ну я потому выше и спросил, что такое словарный запас? Если измерять просто объем лексикона, то да. Но, надо учитывать, что я считал только самые частотные слова. Т.е. чтобы твой "дабрачан" имел "вес", ты должен использовать его часто, и при этом использовать также часто и "доброчан".

Плюс, я еще проверял корреляцию с НКРЯ. Т.е. словами, заведомо написанными правильно. И прошу обратить внимание, корреляция у чанов и у ресурсов второй группы достаточно схожи, т.е. количество активно используемых чистых слов русского языка и там и там примерно одинаково.
>> No.6299
> "Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации
Что, правда? А можно объяснить, в чём разница (особенно между 1-м и 3-м, с примерами)?
Вот например между доброчаном, дабурочаном, боброчаном разница понятна (но это не лексемы. или нет?) Между доброчаном и доброчонгом разницы уже меньше.
>> No.6301
>>6299
> но это не лексемы
Лексемы.
Как бы обеснить. Вот есть "слово", его можно "склонять"/"спрягать" (по падежам, числам, временам, родам и т.д.)
Вот весь набор склонений/спряжений образует лексему.
Т.е. лексема, выраженная леммой ДОБРОЧАН это набор следующих инфлекций: "доброчан" "доброчаны" "доброчану" "доброчанам" "доброчане" "доброчанах" и т.д.
С точки зрения формальной лингвистики "дабурочан" "боброчан" и т.д. образуют другие наборы инфлекций и выражены другими леммами, а значит это другие лексемы.
> А можно объяснить, в чём разница
Деривации не имеют негативного оттенка, скорее наоборот.
>> No.6304
>>6301
А в чём разница между деривациями? Мне почему-то кажется что "падонок", "падонок" и "падонаг" - это просто разные варианты написания, в рамках падонковской субкультуры употребляющиеся одинаково (аналогия- написание слов в british english и "американском английском"). Или если есть достаточно частые разные употребления- это уже лексема?
>> No.6305
> "падонок", "падонак" и "падонаг"
фикс.
>> No.7175
Файл: untitled.png
Png, 5.95 KB, 577×180 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
untitled.png
Добрый вечер!

Я, как правило, АИБ не читаю - муж показал этот тред, посчитав, что мне как лингвисту будет интересно. Cразу показалось, что делал статистику профессионал. Если я не ошиблась и автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой, то я очень хочу познакомиться. Есть одно полуделовое предложение, не имеющее отношения к имиджбордам, но имеющее отношение к сбору данных по словоупотреблению в русском языке. Уважаемый автор/авторы/сочувствующие, пишите на адрес nyrestein-собака-gmail.com.
>> No.7177
>>7175
Мой Доброчан превращается в арену деловых переговоров и сириоуз бизнесса. С одной стороны, я должен испытывать гордость, с другой - грустно всё это.
>> No.7179
Файл: 0003.JPG
Jpg, 11.09 KB, 275×271 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
0003.JPG
>>7175
> Если я не ошиблась[,] и автор/авторы доклада
Лингвист, говоришь? Хех!
>> No.7182
>>7179
яка страна таки теракты…
>> No.7646
Ненавижу, сука, из-за этой хуйни я и не пошёл в аспирантуру филфака СПбГУ; скучно и нет места для фантазии
брат умер, а ты говоришь, что она безвредная!
>> No.8172
>>5954
Реквестирую научную статью по мотивам исследования проф. Доброанонова.
Подробности тут: http://groups.google.com/group/stsgrad/browse_thread/thread/26201babe22137fd
>> No.8173
>>7179
Да ладно доебываться то. Доброчан же.

Не лингвист.
>> No.9166
Файл: 15812963.jpg
Jpg, 75.23 KB, 400×525 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
15812963.jpg
>> No.37266
>>5957
> Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха".
Проиграл в голос
>> No.37268
>>37266
Быстрый ты какой.
>> No.37287
>>7179
Нет ошибки же,
> я не ошиблась
и
> автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой
- однородные придаточные, относящиеся к "если".
мимопроходил
>> No.37291
>>37287
c:лютый неудобно
Спасибо тебе, крокодил-некромант!
Огромное спасибо. Без тебя я бы не узнал о таком-то виновом тредище.
>> No.41263
Danbooru 539977 animal_ears bell cat_ears choker elbow_gloves fate_testarossa feet gloves legs long_hair mahou_shoujo_lyrical_nanoha mahou_shoujo_lyrical_nanoha_strikers tail.jpg
Бампаю няшей эпичный тред.
>> No.41264
> Интерес к мемам упал
А как мерили интерес? Учитывали разнообразие мемов или частоту? Что же, сотня разных мемов, использованная единожды не так интересна, как один, повторяющийся сто раз?
Алсо было бы неплохо посмотреть архив Спидометра Имиджборд (Думаю, тамошний админ поделится) и уделить большее внимание отдельным "пиковым" периодам вроде каникул, Нового Года, начала учебного года, выходных дней. Так "славич" употребляется лишь в редкие короткие периоды форса, в то время как "бочка" будет в ходу всегда стабильно.
>> No.41279
>>37266
Пожалуйста, не надо тащить сюда всякие игры с помойки. Пусть говно будет в одном месте.
>> No.41280
>>41279
Что за тупой игрохейтер завёлся в моих интернетах? Уже который раз за два дня наблюдаю, и не на одной борде причём.
>> No.41283
>>41280
Меня больше интересует, откуда взялись тупые никогда не выигрывающие игроки?
>> No.41286
Файл: 12661615756903.png
Png, 166.12 KB, 265×294 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
12661615756903.png
>>41283
> тупые никогда не выигрывающие игроки
И во что они играют?
>> No.41287
>>41283
Это еще ничего. В природе встречаются, вы не поверите, люди, у которых смешные картинки вызывают непроизвольное испражнение, о чём они радостно сообщают об этом окружающим на анонимных форумах. На некоторых форумах комментарий "обосрался" является высшей похвалой и признанием собеседника как оригинального шутника.
>> No.41288
>>41287
Да, но что за игра имеется в виду?
>> No.41290
Лол, надо же, кто-то воскресил мой тред.
У меня, кстати, всё это время делались копии тиречей-нульчей (забыл убрать скрипт из крона и он так уже два года пашет), можно посмотреть на изменения за прошедший период.
>> No.41295
>>41290
Ждем с нетерпением новый отчет.
>> No.41307
Файл: game-schoolgirl-by-raikoh.jpg
Jpg, 157.38 KB, 705×952
Ваши настройки цензуры запрещают этот файл.
r-15
>>41288
"Засмеялся-проиграл", вестимо.
Объяснять, думаю, более ничего не надо?
А ещё - %%http://en.wikipedia.org/wiki/TheGame(mind_game)%%
>> No.41315



[ /b/ /u/ /rf/ /dt/ /vg/ /r/ /cr/ /lor/ /mu/ /oe/ /s/ /w/ /hr/ ] [ /a/ /ma/ /sw/ /hau/ /azu/ ] [ /tv/ /cp/ /gf/ /bo/ /di/ /vn/ /ve/ /wh/ /fur/ /to/ /bg/ /wn/ /slow/ /mad/ ] [ /d/ /news/ ] [ Главная | Настройки | Закладки | Плеер ]