Show simple item record

dc.contributor.advisorBeltrán Castañón, César Armando
dc.contributor.advisorZariquiey Biondi, Roberto Daniel
dc.contributor.advisorList, Johann-Mattis
dc.contributor.authorMiller, John Edward
dc.date.accessioned2024-11-18T20:01:16Z
dc.date.available2024-11-18T20:01:16Z
dc.date.created2024
dc.date.issued2024-11-18
dc.identifier.urihttp://hdl.handle.net/20.500.12404/29444
dc.description.abstractKnowing what words of a language are inherited from the ancestor language, which are borrowed from contact languages, which are recently created, and the timing of critical events in the culture, enables modeling of language history including language phylogeny, language contact, and other novel influences on the culture. However, determining which words or forms are borrowed and from whom is a difficult, time consuming, and often fascinating task, usually performed by historical linguists, which is limited by the time and expertise available. While there are semi-automated methods available to identify borrowed words and their word donors, there is still substantial opportunity for improvement. We construct a new language model based monolingual method, competing cross-entropies, based on word source groupings within monolingual wordlists; improve existing multilingual sequence comparison methods, closest match on language pairs and cognate-based on multiple languages; and construct a classifier based meta-method, combining closest match and cross-entropy functions. We also define an alternative goal of borrowing detection for dominant donor languages, which allows determination of both borrowing and source. We apply monolingual methods to a global dataset of 41 languages, and multilingual and meta methods to a newly constituted dataset of seven Latin American languages. We also initiate work on a dataset of 21 Pano-Tacanan and regional languages with added Spanish, Portuguese, and Quechua donor languages for subsequent application of borrowing detection methods. The competing cross-entropies method establishes a benchmark for automatic borrowing detection for the world online loan database, the dominant donor multiple sequence comparison method improves over the competing cross-entropies method, and the classifier meta-method with sequence comparison and crossentropy functions performs substantially better overall.es_ES
dc.description.abstractConocer qué palabras de una lengua son heredadas, cuáles son prestadas, cuáles son de reciente creación y el momento de los eventos culturales críticos permite modelar la historia de la lengua, incluyendo su filogenia, el contacto entre lenguas y otras influencias culturales novedosas. Sin embargo, determinar qué palabras o formas son prestadas y de qué lengua provienen es una tarea compleja y laboriosa, realizada generalmente por lingüistas históricos, que se ven limitados por el tiempo y la experiencia disponibles. Aunque existen métodos semiautomáticos para identificar préstamos y sus lenguas de origen, aún hay margen de mejora. Construimos un nuevo modelo de lenguaje basado en un método monolingüe, entropías cruzadas competitivas, basado en agrupaciones de fuentes de palabras dentro de listas de palabras monolingües; mejoramos los métodos existentes de comparación de secuencias multilingües, la coincidencia más cercana en pares de idiomas y afines basados en múltiples idiomas; y construimos un meta-método basado en clasificadores, combinando funciones de coincidencia más cercana y de entropía cruzada. También definimos un objetivo alternativo de detección de préstamos para idiomas donantes dominantes, que permite determinar tanto el préstamo como la fuente. Aplicamos métodos monolingües a un conjunto de datos global de 41 idiomas (WOLD), y métodos multilingües y meta-métodos a un conjunto de datos recién constituido de siete idiomas latinoamericanos. También iniciamos el trabajo en un conjunto de datos de 21 idiomas pano-tacana y regionales con idiomas donantes agregados de español, portugués y quechua para la posterior aplicación de métodos de detección de préstamos. El método de entropías cruzadas competitivas establece un punto de referencia para la detección automática de préstamos en la base de datos mundial de préstamos en línea (WOLD). El método de comparación de secuencias múltiples del donante dominante mejora los resultados del método de entropías cruzadas competitivas. Finalmente, el meta-método clasificador, que combina la comparación de secuencias y las funciones de entropía cruzada, ofrece el mejor rendimiento general.es_ES
dc.language.isoenges_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rightsAtribución 2.5 Perú*
dc.rights.urihttp://creativecommons.org/licenses/by/2.5/pe/*
dc.subjectAprendizaje automático (Inteligencia artificial)es_ES
dc.subjectLingüística computacionales_ES
dc.subjectRedes neuronales (Computación)es_ES
dc.subjectLingüística históricaes_ES
dc.titleTowards automatic detection of lexical borrowings in wordlists - with application to Latin American languageses_ES
dc.typeinfo:eu-repo/semantics/doctoralThesises_ES
thesis.degree.nameDoctor en Ingenieríaes_ES
thesis.degree.levelDoctoradoes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgradoes_ES
thesis.degree.disciplineIngenieríaes_ES
renati.advisor.dni29561260
renati.advisor.dni40203566
renati.advisor.orcidhttps://orcid.org/0000-0002-0173-4140es_ES
renati.advisor.orcidhttps://orcid.org/0000-0002-1421-1314es_ES
renati.advisor.orcid--es_ES
renati.author.dni000436511
renati.discipline732028es_ES
renati.jurorMccoy, Kathleen Fillibenes_ES
renati.jurorBeltrán Castañón, César Armandoes_ES
renati.jurorPardo, Thiagoes_ES
renati.jurorOncevay Marcos, Félix Arturoes_ES
renati.jurorVera Zúñiga, Javier Maximilianoes_ES
renati.levelhttps://purl.org/pe-repo/renati/level#doctores_ES
renati.typehttps://purl.org/pe-repo/renati/type#tesises_ES
dc.publisher.countryPEes_ES
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#2.00.00es_ES


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess