Demarcación epistemológica de un trabajo científico para la web semántica

Marcelo Claudio Perissé

Editorial Ciencia y Técnica Administrativa


Resumen

Propósito: El trabajo busca establecer un proceso automatizado de curación semántica, que permita alcanzar una clara descripción ontológica de lo expuesto en los textos científicos.

Metodología: A partir de una demarcación epistémica, basada en un marco un marco concreto, constituido por: una comunidad científica, una sociedad anfitriona, un dominio del discurso; y un marco conceptual integrado por: un trasfondo filosófico, un trasfondo formal, un trasfondo específico, un trasfondo acumulado, una problemática, un objetivo, y una metódica. Además se realiza una demarcación de los datos aplicando la marcación RDFa, estructurada según Schema.org, que será de utilidad para la indexación en IA.

Resultados: se logra desarrollar un modelo para llevar adelante un proceso de curación a textos científicos que puede ser sintetizado bajo la tripleta: sujeto, predicado, objeto de la Web Semántica establecida por Tim Berners-Lee.

Conclusiones: La inclusión de curación académica y asistida por IA en los artículos científicos fortalecerá su utilidad para la indexación semántica y la interacción con sistemas de IA. La mayor relevancia de esta propuesta, es la de entregar los elementos necesarios que permiten constituir un proceso de aprendizaje para la Inteligencia Artificial.

Abstract

Purpose: The work seeks to establish an automated semantic curation process, which allows to achieve a clear ontological description of what is presented in scientific texts.

Methodology: Starting from an epistemic demarcation, based on a concrete framework consisting of a scientific community, a host society, a domain of discourse; and a conceptual framework made up of: a philosophical background, a formal background, a specific background, an accumulated background, a problem, an objective, and a method. In addition, a delimitation of the data is carried out by applying the RDFa markup, structured according to Schema.org, which will be useful for indexing in AI.

Results: a model is developed to carry out a curation process for scientific texts that can be synthesized under the triplet: subject, predicate, object of the Semantic Web established by Tim Berners-Lee.

Conclusions: The inclusion of academic and AI-assisted curation in scientific articles will strengthen their usefulness for semantic indexing and interaction with AI systems. The greatest relevance of this proposal is to provide the necessary elements that allow for the constitution of a learning process for Artificial Intelligence.

1. Introduction

El trabajo busca desarrollar un sistema de información dirigido por académicos bajo el «Modelo PRC»: Publicar – Revisar – Curar; con foco en la «curación de contenidos»; más particularmente una «curación digital» que provea información relevante a la web, a través de metadatos ontológicos y semánticos. Consecuentemente, la metódica sistemática propuesto permitirá: identificar, evaluar, e interpretar trabajos de investigación en un campo de conocimiento científico determinado. (Scholarly publisher, 2023)

Con ello se espera enriquecer el proceso educativo, entre docentes y estudiantes, en un marco denominado: Entorno Personal de Aprendizaje (PLE por sus siglas en inglés: Personal Learning Environment), el cual se ve constituido por las siguientes actividades:

2. Demarcación ontológica

Siguiendo a Mario Bunge (Seudociencia e ideología, pág. 45), vemos que toda Idea Proyecto se establece en el dominio de un campo de investigación; y éste último, debe ser analizado desde un marco material y un marco conceptual, a saber:. 

  1. El marco material, representado por la tritupla Em = « C, S, D », compuesto por:
  2. El marco conceptual en un campo epistémico dado, puede caracterizarse como una séptupla Ec = « G, F, E, A, P, O, M » donde:
    • G = concepción general o trasfondo filosófico, constituido por: una ontología, una gnoseología y un ethos; todos ellos, inherentes al dominio del discurso;
    • F = trasfondo formal, de lógica teórica o matemática para realizar y sustentar inferencias válidas;
    • E = trasfondo específico, constituido por conocimientos (datos, teoremas, hipótesis) tomados en préstamo de "campos de conocimiento" lindantes;
    • A = bagaje acumulado de conocimientos verdaderos y eficaces, como colección al día de: teorías, leyes, modelos o hipótesis; obtenidos en investigaciones previas;
    • P = problemática cognitiva sobre la naturaleza de un objeto de estudio (concreto o conceptual), descripta de forma clara (sin términos vagos o ambiguos y bajo una estructura lógica) y formulada a través de una hipótesis.
    • O = un objetivo, como finalidad última de la investigación, que permite describir, explicar, y predecir hechos; como así también, validar teorías y leyes.
    • M = una metódica (congruente con el objeto y la hipótesis), por el que se pueda saber y justificar procedimientos y resultados.

Respecto al trasfondo específico (E), que Charles Peirce (Escritos filosóficos, pág. 103-107) expone que: la idea de una ciencia, depende de otra, en los principios fundamentales; en el mismo sentido Ernest Mach (Conocimiento y error, pág. 18), dice que los resultados en otras ramas del conocimiento deben contribuir a orientar al científico, en su propio campo del conocimientos o especialidad; y será esta fusión en las especialidades la que aportará a la concepción de una «cosmovisión» hacia la cual tienden todos los especialistas.

Consecuentemente, como condición necesaria, toda Idea Proyecto debe estar especificada por la siguiente sextupla Ip = « D, G, A, P, O, M », donde:

  1. D = Objeto de estudio en un determinado contexto;
  2. G = Un andamiaje o filosofía inherente, que permita constituir una concepción racional o visión general del objeto de estudio; 
  3. A = colección al día de evidencias y principios, representados a través de las referencias bibliográficas citadas.
  4. P = Una problemática sobre el objeto de estudio, semánticamente descripta a través de claras proposiciones o hipótesis.
  5. O = un objetivo, como resultado a priori del problema, que conjuntamente indican la metodología a seguir para resolver dicho problema.
  6. M = una metódica, por la que se pueda alcanzar y contrastar los resultados. 

 

Este es el contenido de la etiqueta Figure de diseñoIdea-Proyecto, perspectiva sistémica de una problemática a investigar
Idea-Proyecto, perspectiva sistémica de una problemática a investigar
<

3. Curación

Concretamente, la curación a seguir realizada se hará aplicando la demarcación epistemológica presentada, lo cual permitirá valorar un trabajo científico para la web semántica.

image/svg+xml
Estructura de un cuerpo científico: Lenguaje científico y la construcción de modelos y teorías.
Donde Ln = Lenguaje Natural; Lt = Lenguaje Teórico

Comunidad de sujetos investigadores (Community Science)

Campos de conocimiento disciplinares, establecido por la actuación de la comunidad de investigadores, que conforman la línea de investigación. La denominación, surgida de las subjects (en algunos casos por las key words), surge de aplicar de un sistema taxonómico, tal es el UNESCO Thesaurus, enumerando así el término general, el particular, y algunos otros relacionales si correspondiera.

subject 1:

subject 2:

subject 3:

Sociedad anfitriona que apoya y participa como ciencia ciudadana (Crowdsourcing-Citizen Science)

Cuáles son las personas, agrupaciones gubernamentales, industriales, o sociales que contribuyen colaborativamente (Crowdsourcing), con la investigación, y quienes participan más activamente (Citizen Science) en en todas o en algunas de las etapas de la investigación; estableciendo una Investigación-Acción. Ver caso

Dominio del Discurso: Objeto de estudio

Establecido por la principal idea sustanciada en evidencias relevantes que permite distinguir y comprender, en esencia, al objeto de estudio; y cúal es el conjunto de datos (Dataset) que sustenta dichas evidencias.

Concepción general: Trasfondo Filosófico

Cuál es la cosmovisión o el conjunto de conceptos utilizados que modelan, de manera rigurosa, el dominio del discurso; y por el cual se plantea el problema y explora la respuesta.

Cosmovisión o conjunto de conceptos utilizados que modelan, de manera rigurosa, el dominio del discurso; y por el cual se plantea el problema y explora la respuesta.

Conocimiento: Trasfondo Formal

Cómo se referencia o representa, desde la lógica o la matemática, al objeto de estudio.

Conocimiento: Trasfondo Específico

Cuál es el conocimiento específico en que se basa el estudio, como ser teorías, leyes, teoremas, axiomas, principios, o modelos aceptados por los cuales se referencia o representa al objeto de estudio.

Conocimiento: Trasfondo Acumulado

Cuál es el bagaje acumulado de conocimientos obtenidos previamente por los miembros de la comunidad de investigadores.

Problemática

Cuál es el planteo concreto o hipótesis, mediante el cual se presenta al problema.

Objetivo

Cuál es el propósito del estudio (como fin último en referencia a la naturaleza del objeto de estudio), cuál es el objetivo o meta (como resultado a priori) que se persigue, y cuáles son sus implicancias.

Metódica: métodos utilizados

Qué tipo de metodología se aplica para resolver el problema de investigación.

Resultados

Cuáles son las principales evidencias; en lo posible expresadas como conjunto de dato (Dataset) surgentes del estudio; y cuál es el principal resultado que concuerda con el objetivo.

Conclusión

Cuál es la deducción resultante de las consecuencias contrastables, provista por el prinipal hallazgo (resultado); y cuál es su implicancia o aporte al campo del conocimiento (Bagaje Acumulado).

Bibliografía

Establecer la validación de las citas realizadas pautando su relevancia (citation).

4. Marcación semántica para web en Resource Description Framework (RDF)

El método consiste en expresar la información como una lista de sentencias bajo la forma de una tripleta: Sujeto-Predicado-Objeto; donde el sujeto y el objeto son nombres para dos cosas en el mundo y el predicado es el nombre de la relación entre esas cosas.

En nuestro caso los nombres en las sentencias RDF se usan para referir recursos (Recordando el uso que se le daba a RDF para metadatos en la web).

 

Ejemplo

Sujeto / URI: https://www.cyta.com.ar/ta/article.php?id=210103

Sujeto / UR#

Predicado / Atributo

Schema.org

(property='x')

Objeto / Valor
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#title title name https://www.cyta.com.ar/ta/article.php?id=210103#title.....
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#authorship creator

author

https://www.cyta.com.ar/ta/article.php?id=210103#authorship
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#sourceOrganization sourceOrganization sourceOrganization  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#abstract abstract abstract https://www.cyta.com.ar/ta/article.php?id=210103#abstract
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#keywords subject keywords keyword
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Community-Science community science

audience

https://www.cyta.com.ar/ta/article.php?id=230403#:~:text=Introducci%C3%B3n:
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Crowdsourcing-Citizen-Science society

funder

https://www.cyta.com.ar/ta/article.php?id=230403#:~:text=que%20apoya%20y%20participa%20en
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Object-of-study object of study

description

 
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Philosophica-Background philosophical background about  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#formal formal background educationalAlignment  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Specific-Background specific background hasPart  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Accumulated-Background accumulated background of knowledge pattern  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Problematic problematic

disambiguatingDescription

 
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Objective objective assesses  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Methodical methodical backstory  
https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Results result offers  
http://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Conclusion conclusion review  
http://www.cyta.com.ar/ta/curation_semantic.php?id=210103#Bibliography Bibliography citation https://www.cyta.com.ar/ta/curation_semantic.php?id=210103#references
http://www.cyta.com.ar/ta/curation_semantic.php?id=210103#datePublished publication date datePublished  

Pseudocódigo para preguntas y respuestas de la tupla: (sujeto, predicado, objeto)

pregunta = (artículo, tiene, qué
conocimiento = (
(article_uri, title_shema_property, title_content)
(http://www.cyta.com.ar/ta/article.php?id=210103, title, http://www.cyta.com.ar/ta/article.php?id=210103#title)
(http://www.cyta.com.ar/ta/article.php?id=210103, creator, http://www.cyta.com.ar/ta/article.php?id=210103#creator)
(http://www.cyta.com.ar/ta/article.php?id=210103, abstract, http://www.cyta.com.ar/ta/article.php?id=210103#abstract)
)

for each sentencia in conocimienot{
if (sentencia.sujeto == pregunta.sujeto or pregunta.sujeto == what)
if (sentencia.predicado == pregunta.predicado or pregunta.predicado == what)
if (sentencia.objeto == pregunta.objeto or pregunta.objeto == what)
callRespuesta(sentencia)


pregunta = (mi_apartamento, has, what)
conocimiento = (
(yo, own, mi_apartamento)
(mi_apartamento, has, mi_computador)
(mi_apartamento, has, mi_cama)
(mi_apartamento, is_in, Casanova)
)

for each sentencia in conocimienot{
if (sentencia.sujeto == pregunta.sujeto or pregunta.sujeto == what)
if (sentencia.predicado == pregunta.predicado or pregunta.predicado == what)
if (sentencia.objeto == pregunta.objeto or pregunta.objeto == what)
callRespuesta(sentencia)

Una posible regla podría ser (ChatGPT):

En notación lógica:

hasProperty(x, name) ∧ hasProperty(x, author) → isArticle(x)
isArticle(x) ∧ hasProperty(x, datePublished) → isPublishedArticle(x)

Esto permite que la IA haga inferencias sobre los datos en RDFa.

pensar en cómo interconectar RDFa con consultas SPARQL o razonadores semánticos como Jena o RDFox

Shema rdfa
<https://www.cyta.com.ar/ta/article.php?id=230403>
schema:name "Curación semántica con IA";
schema:author <https://www.cyta.com.ar/ta/article.php?id=230403#creator>;
schema:datePublished "2023-04-03"; (date)
schema:about "Web Semántica", "Curación con IA". (subject)

 

sparql

PREFIX schema: <https://schema.org/>
SELECT ?titulo ?autor ?fechaPublicacion
WHERE {
?articulo a schema:ScholarlyArticle ;
schema:name ?titulo ;
schema:author ?autor ;
schema:datePublished ?fechaPublicacion .
}

PREFIX schema: <https://schema.org/>

SELECT ?articulo ?titulo ?fecha
WHERE {
?articulo a schema:ScholarlyArticle .
?articulo schema:name ?titulo .
?articulo schema:datePublished ?fecha .
FILTER (?fecha > "2023-01-01"^^xsd:date)
}
ORDER BY DESC(?fecha)
LIMIT 10

 

PREFIX schema: <https://schema.org/>

SELECT ?title ?creator ?affiliation ?abstract ?publicationDate
WHERE {
?article a schema:ScholarlyArticle ;
schema:name ?title ;
schema:creator ?creator ;
schema:datePublished ?publicationDate .

OPTIONAL { ?article schema:affiliation ?affiliation. }
OPTIONAL { ?article schema:abstract ?abstract. }
}

 

Explicación:

Condiciones de utilización

Aprobado: 19 de noviembre de 2024. por Ciencia y Técnica Administrativa – CyTA

Publicado el 25 de noviembre de 2024 por: Ciencia y Técnica Administrativa – CyTA

http://www.cyta.com.ar

Copyright © 2019 por Ciencia y Técnica Administrativa

Todos los derechos reservados bajo las convenciones internacionales y panamericanas de derecho de autor, para fines no comerciales.

Esta publicación puede ser reproducida o transmitida en cualquier forma o por cualquier medio sin permiso previo escrito por el editor, siempre que: se reproduzca con precisión, se identifique la fuente del material, y se reconozca el estado de Copyright © Ciencia y Técnica Administrativa - CyTA.

Series de estándares de información nacional

ISRNCYTA/ATK/560399--2024-1+032